Você está na página 1de 303

Introdução à geometria

Vol. II

Álgebra linear

Fabio Ferrari Ruffino


Sumário

Introdução 7

Notações 9

Capı́tulo 0. Noções preliminares 11


0.1. Grupos e corpos 11
0.2. Polinômios em uma variável 15
0.3. Algumas noções de cálculo 15
0.4. Demonstrações por indução 16
0.5. Números complexos 17
0.6. Sistemas lineares em um corpo genérico 20
0.7. Introdução à álgebra das matrizes 20
0.8. Notação de Einstein 23

Capı́tulo 1. Espaços vetoriais 25


1.1. Axiomas de espaço vetorial 25
1.2. Combinações lineares 28
1.3. Subespaços vetoriais 31
1.4. Geradores 34
1.5. Independência linear 38
1.6. Bases e dimensão 41
1.7. Subespaços afins 46
1.8. Matriz de mudança de base 49
1.9. Interseção de subespaços vetoriais e afins 52

Capı́tulo 2. Funções lineares e afins 55


2.1. Funções lineares 55
2.2. Núcleo e imagem 60
2.3. Bases e funções lineares 64
2.4. Estrutura linear e composição 67
2.5. Isomorfismos 69
2.6. Matriz representativa 70
2.7. Funções multilineares 78
2.8. Funções afins 79
2.9. Soma direta 80
2.10. Soma de subespaços vetoriais e afins 82
2.11. Espaço vetorial quociente 87
3
4 SUMÁRIO

Capı́tulo 3. Álgebra das matrizes 89


3.1. Permutações 89
3.2. Determinante 91
3.3. Cálculo da matriz inversa 101
3.4. Posto de uma matriz 104
3.5. Teorema de Rouché-Capelli 113
3.6. Autovalores, autovetores e auto-espaços 118
Capı́tulo 4. Produto interno e orientação 127
4.1. Norma e distância 127
4.2. Produto interno 131
4.3. Ortogonalidade 138
4.4. Funções lineares ortogonais 149
4.5. Funções lineares simétricas e antissimétricas 156
4.6. Orientação e rotações 161
4.7. Homotetias e transformações (anti)conformes 171
Capı́tulo 5. Espaços vetoriais complexos 175
5.1. Funções lineares e anti-lineares 175
5.2. Realificação e estrutura complexa 180
5.3. Complexificação e estrutura real 191
Capı́tulo 6. Produto hermitiano 201
6.1. Norma e distância 201
6.2. Produto hermitiano 205
6.3. Ortogonalidade 217
6.4. Funções lineares unitárias 222
6.5. Funções lineares hermitianas e anti-hermitianas 225
6.6. Funções anti-unitárias e anti-lineares (anti-)hermitianas 229
6.7. Orientação complexa e funções unitárias especiais 230
6.8. Produtos hermitianos e estruturas reais 232
Capı́tulo 7. Formas canônicas dos endomorfismos 235
7.1. Diagonalização 235
7.2. Triangularização e forma canônica de Jordan 239
7.3. Forma canônica de Jordan real 257
7.4. Polinômio mı́nimo e teorema de Cayley-Hamilton 262
7.5. Sub-espaços invariantes 267
7.6. Operadores que comutam 269
7.7. Teoremas espectrais 269
7.8. Projetores, resolução espectral e resolução da identidade 276
7.9. Exercı́cios – Parte II 276
Capı́tulo 8. Formas bilineares e hermitianas 277
8.1. Funções bilineares reais 277
8.2. Formas bilineares simétricas e antissimétricas 282
8.3. Pull-back e push-forward 284
SUMÁRIO 5

8.4. Produto interno 284


8.5. Normas e distâncias 290
8.6. Classificação das formas bilineares simétricas 291
8.7. Classificação das formas bilineares antissimétricas 293
8.8. Formas bilineares complexas 293
8.9. Formas sesquilineares 293
Capı́tulo 9. Dualidade e produto tensor 295
9.1. Dualidade 295
9.2. Produto tensor 299
Apêndice A. Permutações 301
Apêndice B. Escalonamento e teorema da base 303
Introdução

O filósofo Marino Gentile, no seu Tratado de filosofia, afirma o seguinte:1


Em relação aos conceitos matemáticos, as representações sensı́veis
desempenham o mesmo papel das armaduras para a construção de
um edifı́cio: por um lado o edifı́cio não poderia ser erigido sem as
armaduras, por outro lado as armaduras não se incorporam nele e
a construção termina realmente só no momento em que podem ser
tiradas.
Na verdade, é difı́cil pensar que esta afirmação se aplique a todos os conceitos ma-
temáticos, pois muitas definições e construções abstratas dependem principalmente
de exigências internas ao pensamento matemático mesmo, sem corresponderem ne-
cessariamente a algumas representações sensı́veis. Contudo, acreditamos que o ponto
de vista de Marino Gentile seja adequado a uma parte significativa da matéria destes
três volumes. Por exemplo, qualquer estudante, ao resolver um problema sobre uma
circunferência ou um triângulo, imagina uma representação sensı́vel destes entes
geométricos, mesmo sabendo que se trata de uma aproximação. Este foi precisa-
mente o ponto de partida do vol. I: quando afirmamos que a visualização intuitiva
da geometria euclidiana era uma sugestão para chegar à construção rigorosa do
espaço vetorial Rn , estávamos usando a nossa intuição como armadura para erigir
o edifı́cio da álgebra linear, atribuindo-lhe a forma correspondente. Todavia, como
diz corretamente Marino Gentile, não podemos pensar de ter acabado a obra até
que consigamos tirar as armaduras e verificar que não desmorone. Por isso, temos
que repercorrer as etapas principais do volume anterior, sem partir explicitamente
das representações intuitivas, e sim dando diretamente as definições rigorosas e mos-
trando que não precisam apoiar-se a algo externo para ficarem em pé. Claramente
este objetivo tornará necessário repetir alguns conceitos já introduzidos no curso de
geometria analı́tica, mas conforme o novo ponto de vista que acabamos de delinear.
Na verdade, a metáfora do edifı́cio e das armaduras não explica completamente
a intenção subjacente a este volume e ao sucessivo. De fato, após a construção de
um prédio, as armaduras podem ser esquecidas, pois param completamente de se-
rem úteis. Pelo contrário, a visualização dos objetos geométricos não tem que ser
abandonada por motivo nenhum, e sim deverá acompanhar o leitor constantemente.
A novidade está no fato que, a partir de agora, representar intuitivamente uma de-
finição ou um resultado será importante para nós, para que possamos atribuir-lhe
um significado bem claro, mas não será mais essencial em si, ou seja, o formalismo
1M. Gentile, Trattato di filosofia, Edizioni scientifiche italiane, 1987, p. 30. A tradução não é
literal, por causa de algumas expressões italianas que não seriam naturais em português.
7
8 INTRODUÇÃO

ficará em pé autonomamente. Por isso, a linguagem deste volume será mais técnica
e poderá aparecer mais “fria” que a usada até agora: o rigor matemático será apre-
sentado na sua pureza, deixando ao leitor a tarefa de compará-lo com a apresentação
mais intuitiva do vol. I.
Além disso, haverá também muito material novo, que nem foi roçado no curso
de geometria analı́tica. Antes de tudo, no capı́tulo 1 partiremos da noção geral de
espaço vetorial sobre um corpo fixado, tratando Rn como um caso particular, mesmo
se extremamente significativo. No capı́tulo 2 estudaremos em detalhe as funções li-
neares, ou seja, as funções entre espaços vetoriais que “respeitam” as operações
de soma e produto externo. Estas funções, com algumas propriedades adicionais,
constituirão a ferramenta fundamental para definir rigorosamente o fato que duas
figuras geométricas sejam congruentes o semelhantes. É evidente que se trata de um
passo essencial em direção à formalização da geometria euclidiana, sendo as noções
de congruência e semelhança presentes desde o começo da obra “Os Elementos”
de Euclides. No capı́tulo 3 aprofundaremos as noções de determinante e posto de
uma matriz, mostrando as definições completas e demonstrando todas as afirmações
que foram somente enunciadas no vol. I. Ademais, introduziremos pela primeira vez
as noções de autovalor e autovetor de um endomorfismo ou de uma matriz, que
serão centrais nos capı́tulos sucessivos. No capı́tulo 4 estudaremos a teoria geral
do produto interno (ou escalar) em um espaço vetorial real, sendo o canônico em
Rn , definido no vol. I, um caso particular. Introduziremos também o conceito de
orientação e as suas principais aplicações. Além do mais, analisaremos as relações
profundas entre as noções de função linear, produto interno e orientação, sendo esta
a base para definir rigorosamente as rotações. No capı́tulo 5 estudaremos apro-
fundadamente os espaços vetoriais complexos, comparando-os com os reais. Como
é possı́vel definir um produto interno em um espaço vetorial real, analogamente é
possı́vel definir um produto hermitiano em um espaço vetorial complexo: este será o
tópico do capı́tulo 6, junto com as relações entre as noções de função linear e produto
hermitiano. No capı́tulo 7 descreveremos as formas canônicas das funções lineares de
um espaço fixado em si mesmo, isto é, a forma diagonal e a forma canônica de Jor-
dan. Também enunciaremos e demonstraremos os teoremas espectrais e as relativas
aplicações, que são particularmente relevantes. Enfim, no capı́tulo 8 estudaremos
a noção de forma bilinear real, que generaliza a de produto escalar, e as de forma
hermitiana e forma bilinear complexa, as quais desempenham no contexto complexo
um papel análogo ao das formas bilineares reais, mas de duas maneiras distintas. A
teoria das formas bilineares será a base para classificar as quádricas no vol. III.
Este breve resumo confirma que a relação entre o vol. I e o vol. II tem duas
faces: por um lado temos que repetir a matéria do curso de geometria analı́tica
de modo mais intrı́nseco, por outro lado temos que acrescentar muitos conteúdos
completamente novos. Podemos afirmar que este volume constituirá o trecho mais
ı́ngreme da trilha que estamos percorrendo até a cima da montanha, sendo esta
cima a formalização completa da geometria euclidiana e da noção cartesiana de
referencial. Contudo, depois deste esforço, a cima será mais próxima e, no vol. III,
a alcançaremos.
Notações

Usaremos no texto os seguintes sı́mbolos:


• ‘∀’, ‘∃’ e ‘@’, com o significado respetivamente de “para cada”, “existe” e
“não existe”;
• os sı́mbolos usuais ‘=’, ‘6=’, ‘<’, ‘>’, ‘≤’ e ‘≥’ com o significado respe-
tivamente de “igual”, “diferente”, “menor”, “maior”, “menor ou igual” e
“maior ou igual”;
• ‘:’ com o significado de “tal que” ou “tais que”;
• ‘∈’ para denotar a relação de pertença a um conjunto; por exemplo, x ∈ X
significa que x é um elemento do conjunto X;
• ‘⊂’ para denotar a relação de inclusão entre conjuntos; por exemplo, Y ⊂ X
significa que todo elemento de Y pertence também a X; quando queremos
destacar que a inclusão é própria usamos o sı́mbolo ‘(’; por exemplo, Y ( X
significa que Y ⊂ X e Y 6= X;
• ‘∩’ e ‘∪’ para denotar respetivamente a interseção e a união de dois con-
juntos;
• ‘×’ para denotar o produto cartesiano de dois conjuntos; denotamos por
(x, y) um elemento do conjunto X × Y ;
• ‘\’ para denotar a diferença entre dois conjuntos; por exemplo, X \ Y é o
conjunto dos elementos que pertencem a X mas não a Y ;
• ‘∅’ para denotar o conjunto vazio;
• N, Z, Q e R para denotar respetivamente os conjuntos dos números naturais,
inteiros, racionais e reais;
• ‘+’ e ‘ · ’ para indicar a soma e o produto nos conjuntos N, Z, Q e R;
normalmente subentenderemos o sı́mbolo ‘ · ’ e indicaremos o produto só
justapondo os termos correspondentes; por exemplo, xy indica o produto
entre x e y;
• os parêntesis ‘(’ e ‘)’ quando for necessário indicar a ordem em que se
aplicam as operações;
• a vı́rgula ‘,’ para separar os itens de uma lista.
Em geral denotaremos um conjunto através de uma propriedade que caracteriza os
seus elementos, com a seguinte notação:

X = {x : ϕ(x)}

sendo ϕ(x) a propriedade. Às vezes, para destacar que estamos definindo um con-
junto e não enunciando uma igualdade entre objetos já definidos, usamos o sı́mbolo
9
10 NOTAÇÕES

‘:=’. Por exemplo, o conjunto dos números inteiros pares pode ser definido da se-
guinte maneira:
P := {n ∈ Z : ∃m ∈ Z : n = 2m}.
Quando o conjunto for finito, podemos defini-lo também mostrando a lista dos seus
elementos, por exemplo:
X := {1, 8, −2}.
Quando definiremos a noção de vetor, usaremos as seguintes notações:
• indicaremos os vetores por uma letra sublinhada, por exemplo ‘v’;
• o vetor nulo em qualquer dimensão será indicado por ‘0’ e o oposto do vetor
‘v’ será denotado por ‘−v’;
• usaremos o sı́mbolo ‘+’ para indicar a soma entre vetores, por exemplo
v+w, e o sı́mbolo ‘ · ’ para denotar o produto externo; todavia, normalmente
indicaremos o produto externo sem escrever explicitamente ‘·’, por exemplo
λv;
• usaremos o sı́mbolo ‘h · , · i’ ou ‘•’ para indicar o produto escalar ou interno,
por exemplo hv, wi ou v • w;
• usaremos o sı́mbolo ‘∧’ para indicar o produto vetorial em R3 , por exemplo
v ∧ w;
• dado um conjunto de vetores A = {v 1 , . . . , v k }, denotaremos por hAi ou
por hv 1 , . . . , v k i o subespaço gerado por A; em princı́pio, quando k = 2,
a notação hv 1 , v 2 i pode indicar quer o subespaço gerado pelos dois veto-
res, quer o produto interno, mas o contexto esclarecerá sem dúvida o que
estamos denotando.
CAPı́TULO 0

Noções preliminares

Neste capı́tulo vamos introduzir algumas noções algébricas básicas que serão
usadas neste volume. Assumimos que o leitor já tenha uma certa familiaridade com
estas noções ou que a esteja adquirindo em outros cursos paralelos ao de álgebra
linear, portanto este capı́tulo só tem que ser pensado como um breve resumo.
0.1. Grupos e corpos
Seja X um conjunto. Chamamos de operação em X uma função ∗ : X × X → X,
ou seja, uma função que, a partir de dois elementos de X, dá outro elemento de X.
Por exemplo, a soma e o produto entre números naturais são duas operações em N,
pois são duas funções da forma + : N × N → N e · : N × N → N. Uma operação
assim definida é também dita operação interna em X. Ao contrário, dados dois
conjuntos X e Y , uma operação externa em X, com coeficientes em Y , é uma
função ∗ : Y × X → X ou ∗ : X × Y → X. Por exemplo, podemos multiplicar
um número real por um número inteiro, obtendo outro número real. Trata-se da
operação externa · : N × R → R, portanto é uma operação em R com coeficientes
em N. Com esta notação o resultado da operação ∗, aplicada a x e y, deveria ser
denotado por ∗(x, y), mas frequentemente se usa a notação x∗y. Além disso, quando
o sı́mbolo da operação é ‘ · ’, pode ser subentendido, portanto denotamos · (x, y) por
xy.
Uma estrutura algébrica é um conjunto com algumas operações, que podem ser
internas ou externas e que devem satisfazer algumas hipóteses. Vamos mostrar dois
casos significativos de estruturas algébricas, ou seja, os grupos e os corpos, que serão
usados ao longo do texto.
Definição 0.1.1. Um grupo é uma tripla (G, · , 1), onde:
• G é um conjunto;
• · : G × G → G é uma operação, frequentemente chamada de produto;
• 1 ∈ G é um elemento fixado,
tal que:
(i) o produto é associativo, ou seja, g(hk) = (gh)k para todos g, h, k ∈ G;
(ii) 1 é o elemento neutro do produto, ou seja, g1 = 1g = g para todo g ∈ G;
(iii) todo g ∈ G possui um inverso, ou seja, para cada g ∈ G existe um elemento
g −1 ∈ G tal que g · g −1 = g −1 · g = 1. ♦
Definição 0.1.2. O grupo (G, · , 1) é dito abeliano ou comutativo se gh = hg
para todos g, h ∈ G. Neste caso, acontece frequentemente (mas nem sempre) que:
• a operação é denotada por ‘+’ e chamada de soma;
11
12 0. NOÇÕES PRELIMINARES

• o elemento neutro é denotado por 0;


• o inverso de g ∈ G é dito oposto de g e denotado por −g.
Com esta notação o grupo é a tripla (G, +, 0). ♦
Exemplo 0.1.3. Os números inteiros com a operação de soma e o elemento neutro 0
formam o grupo abeliano (Z, +, 0), sendo o oposto de n ∈ Z o número −n. O mesmo vale
para os números racionais e os números reais, que formam os grupos abelianos (Q, +, 0) e
(R, +, 0). Ao contrário, os números naturais com a operação de soma e o elemento neutro
0 não formam um grupo, pois o único elemento que possui um oposto é 0 mesmo. ♦
Exemplo 0.1.4. Os números inteiros com a operação de produto e o elemento neutro
1 não formam um grupo, pois os únicos elementos que possuem um inverso são 1 e −1. Os
números racionais não nulos, com a operação de produto e o elemento neutro 1, formam
o grupo abeliano (Q∗ , · , 1), sendo o inverso de x ∈ Q∗ o número x1 ∈ Q∗ . O mesmo vale
para os números reais não nulos, que formam o grupo (R∗ , · , 1). Não podemos incluir o
0, pois não existe o inverso 10 . Observamos que o fato de tirar 0 do conjunto não constitui
um problema em relação ao produto, dado que o produto de dois números racionais ou
reais não nulos é também não nulo. ♦

Definição 0.1.5. Um corpo é uma quı́ntupla (K, + , · , 0, 1), onde:


• K é um conjunto;
• + , · : K × K → K são duas operações, chamadas respetivamente de soma
e produto;
• 0, 1 ∈ K são dois elementos fixados distintos,
tal que:
(i) (K, + , 0) é um grupo abeliano;
(ii) o produto é associativo, ou seja, x(yz) = (xy)z para todos x, y, z ∈ K;
(iii) o produto é comutativo, ou seja, xy = yx para todos x, y ∈ K;
(iv) (K∗ , · , 1) é um grupo (obviamente abeliano), sendo K∗ := K \ {0};
(v) o produto é distributivo em relação à soma, ou seja, x(y + z) = xy + xz para
todos x, y, z ∈ K. ♦
Observamos que o axioma (i) estabelece as propriedades da soma, os axiomas
(ii)-(iv) as do produto e o axioma (v) liga a soma e o produto. Por causa do axioma
(iv), todo elemento não nulo é invertı́vel a respeito do produto. Pode-se demonstrar
facilmente que x0 = 0 para todo x ∈ K. Isso implica que x0 6= 1 para todo x,
portanto 0 não pode ser invertı́vel em nenhum corpo. Enfim, observamos que, se
não pedı́ssemos por hipótese que 0 6= 1, o conjunto K = {0}, com a soma e o produto
definidos por 0 + 0 = 0 e 0 · 0 = 0, seria um corpo; todavia, é preferı́vel excluir esta
possibilidade por definição.
Exemplo 0.1.6. Os números racionais e os números reais, com as operações usuais
de soma e produto, formam os corpos (Q, + , · , 0, 1) e (R, + , · , 0, 1) respetivamente. O
números inteiros, com a soma e produto usuais, não formam um corpo, dado que somente
1 e −1 são invertı́veis a respeito do produto. ♦
Exemplo 0.1.7. Para o leitor que tenha estudado as noções básicas de aritmética, as
classes de resto módulo p, sendo p primo, formam o corpo (Zp , + , · , 0, 1). ♦
0.1. GRUPOS E CORPOS 13

Enfim, avisamos o leitor do seguinte fato. Formalmente um grupo foi definido


como uma tripla e um corpo como uma quı́ntupla com certas propriedades. Todavia,
daqui em diante usaremos frequentemente as expressões “o grupo G” e “o corpo K”,
subentendendo as operações e os elementos neutros correspondentes quando forem
claros pelo contexto.
0.1.1. Morfismos. Em geral, dadas duas estruturas algébricas do mesmo tipo,
um morfismo da primeira à segunda é uma função entre os conjuntos subjacentes,
que “respeita as operações”. Agora vamos definir este conceito com precisão nos
casos dos grupos e dos corpos.
Definição 0.1.8. Sejam G e H dois grupos. Um homomorfismo (ou morfismo)
de grupos de G a H é uma função ϕ : G → H tal que ϕ(g1 g2 ) = ϕ(g1 )ϕ(g2 ) para
todos g1 , g2 ∈ G. ♦
Observamos que, na expressão ϕ(g1 g2 ) = ϕ(g1 )ϕ(g2 ), do lado esquerdo estamos
aplicando o produto em G, enquanto do lado direito estamos aplicando o produto em
H. Pode-se demonstrar facilmente que, se ϕ : G → H for um homomorfismo, então
ϕ(1G ) = 1H e ϕ(g −1 ) = (ϕ(g))−1 para todo g ∈ G. Obviamente estamos denotando
por 1G o elemento neutro de G e por 1H o de H. Enfim, pode-se demonstrar que, se
ϕ for uma função bijetora, então também ϕ−1 : H → G é um morfismo de grupos.
Neste caso ϕ é dito isomorfismo de grupos. Quando existir um isomorfismo de
G a H (ou vice-versa), os grupos G e H são ditos isomorfos. Enfim, um morfismo
injetor é dito também monomorfismo ou mergulho de grupos, enquanto um morfismo
sobrejetor é dito também epimorfismo.
Definição 0.1.9. Sejam K e H dois corpos. Um homomorfismo (ou morfismo)
de corpos de K a H é uma função ϕ : K → H tal que:
• ϕ(k1 + k2 ) = ϕ(k1 ) + ϕ(k2 ) para todos k1 , k2 ∈ K;
• ϕ(k1 k2 ) = ϕ(k1 )ϕ(k2 ) para todos k1 , k2 ∈ K;
• ϕ(1K ) 6= 0H . ♦
Pode-se demonstrar facilmente que, se ϕ : K → H for um homomorfismo, então
ϕ(0K ) = 0H e ϕ(−k) = −(ϕ(k)) para todo k ∈ K. Analogamente, ϕ(1K ) = 1H e
ϕ(k −1 ) = (ϕ(k))−1 para todo k ∈ K∗ . Enfim, pode-se demonstrar que, se ϕ for
uma função bijetora, então também ϕ−1 : H → G é um morfismo de corpos. Neste
caso ϕ é dito isomorfismo de corpos. Quando existir um isomorfismo de G a H (ou
vice-versa), os corpos K e H são ditos isomorfos. Enfim, um morfismo injetor é dito
também monomorfismo ou mergulho de corpos, enquanto um morfismo sobrejetor
é dito também epimorfismo. Contrariamente ao caso dos grupos, vale o seguinte
lema.
Lema 0.1.10. Todo morfismo de corpos é injetor.
Demonstração. Seja ϕ : K → H um morfismo de corpos e suponhamos que
ϕ(a) = 0H . Se a 6= 0K , então ϕ(1K ) = ϕ(a−1 a) = ϕ(a−1 ) · 0H = 0H , o que não
é possı́vel por hipótese. Por isso, todo elemento não nulo tem imagem não nula.
Suponhamos agora que ϕ(a) = ϕ(b), sendo a, b ∈ K. Então ϕ(a−b) = 0H . Acabamos
de provar que isso implica a − b = 0K , logo a = b. 
14 0. NOÇÕES PRELIMINARES

0.1.2. Subestruturas. Dada uma estrutura algébrica, formada por um con-


junto X com algumas operações, uma subestrutura é um subconjunto Y ⊂ X ao
qual se podem restringir as operações definidas em X, de modo que Y , com estas
restrições, se torna uma estrutura do mesmo tipo. Vamos mostrar a definição precisa
no caso dos grupos e dos corpos.
Definição 0.1.11. Sejam (G, · , 1G ) e (H, · , 1H ) dois grupos. Dizemos que
(H, · , 1H ) é um subgrupo de (G, · , 1G ) se:
• H ⊂ G como conjunto;
• o produto em H é a restrição do em G, isto é, o produto h1 h2 em H coincide
com o em G para todos h1 , h2 ∈ H. ♦
A partir da definição precedente é fácil verificar que 1H = 1G e que, para todo
h ∈ H, o inverso h−1 em H coincide com o em G. A noção de subgrupo é estritamente
ligada à de morfismo injetor, como mostram os seguintes lemas, cuja demonstração
será deixada ao leitor como exercı́cio.
Lema 0.1.12. Sejam G um grupo e H ⊂ G um subgrupo. A inclusão de conjuntos
i : H ,→ G é um morfismo injetor de grupos.
Lema 0.1.13. Sejam H e G dois grupos e seja ϕ : H ,→ G um morfismo injetor
de grupos. Sejam H̄ ⊂ G a imagem de ϕ e ϕ̄ : H → H̄ a função bijetora que se
obtém restringindo o contradomı́nio de ϕ à imagem. H̄ é um subgrupo de G e ϕ̄ é
um isomorfismo de grupos.
Isso significa que um morfismo injetor é uma inclusão de um subgrupo a menos
de isomorfismo, isto é, identifica o domı́nio com um subgrupo do contradomı́nio.
Definição 0.1.14. Sejam (K, + , · , 0K , 1K ) e (H, + , · , 0H , 1H ) dois corpos. Di-
zemos que (H, + , · , 0H , 1H ) é um subcorpo de (K, + , · , 0K , 1K ) se:
• H ⊂ K como conjunto;
• a soma e o produto em H são a restrição dos em K, isto é, a soma h1 + h2
e o produto h1 h2 em H coincidem com os em K para todos h1 , h2 ∈ H;
• 1H = 1K . ♦
A partir da definição precedente é fácil verificar que 0H = 0K e que, para todo
h ∈ H, o oposto −h e (se for não nulo) o inverso h−1 em H coincidem com os em K.
A noção de subcorpo é estritamente ligada à de morfismo (necessariamente injetor,
por causa do lema 0.1.10), como mostram os seguintes lemas, cuja demonstração
será deixada ao leitor como exercı́cio.
Lema 0.1.15. Sejam K um corpo e H ⊂ K um subcorpo. A inclusão de conjuntos
i : H ,→ K é um morfismo de corpos.
Lema 0.1.16. Sejam H e K dois corpos e seja ϕ : H ,→ K um morfismo de
corpos. Sejam H̄ ⊂ K a imagem de ϕ e ϕ̄ : H → H̄ a função bijetora que se obtém
restringindo o contradomı́nio de ϕ à imagem. H̄ é um subcorpo de K e ϕ̄ é um
isomorfismo de corpos.
0.3. ALGUMAS NOÇÕES DE CÁLCULO 15

0.2. Polinômios em uma variável


Acontecerá frequentemente nos exemplos e nos exercı́cios de trabalhar com os
polinômios de grau genérico em uma variável, com coeficientes em um corpo dado.
Não vamos dar a definição formal, pois não será necessária, e sim vamos dar uma
definição intuitiva.
Definição intuitiva 0.2.1. Um polinômio na variável x com coeficientes no
corpo K é a soma de uma quantidade finita de termos, cada termo sendo o produto
entre um coeficiente ai ∈ K e uma potência xi , para i ∈ N. Denotamos por K[x] o
conjunto dos polinômios na variável x com coeficientes em K. ♦
Assumimos que a soma seja comutativa, portanto a ordem dos termos não é
significativa. Se a, b ∈ K, pomos axi + bxi = (a + b)xi e 0xi = 0, portanto podemos
assumir que nenhuma potência de x apareça mais de uma vez na soma e, se uma
potência aparecer com coeficiente nulo, podemos tirá-la. Enfim, identificamos um
termo da forma a0 x0 com o coeficiente a0 .
Exemplo. Alguns exemplos de polinômios com coeficientes em R (ditos também “po-
linômios reais”) são os seguintes:
√ 3 √
x2 − x + 1 2x − ex + π πx 22.
O primeiro e o último são também polinômios com coeficientes em Q. ♦
Podemos escrever o polinômio genérico na variável x da seguinte forma:
p(x) = an xn + · · · + a1 x + a0 , an , . . . , a0 ∈ K.
Se n for o máximo número inteiro tal que an 6= 0, então dizemos que o grau do
polinômio é n.
Exemplo. Os graus dos seguintes polinômios reais (ou racionais) são respetivamente
3, 1 e 0:
x3 + x2 − 2 2x + 1 8. ♦
Quando todo coeficiente ai for nulo, obtemos o polinômio nulo p(x) = 0. Não
atribuı́mos um grau ao polinômio nulo. Enfim, dado um polinômio p(x) = an xn +
· · ·+a1 x+a0 , fica definida a função polinomial p̄ : K → K por t 7→ an tn +· · ·+a1 t+a0 .
Por exemplo, dado o polinômio real p(x) = x2 − x, temos que p̄(3) = 32 − 3 = 6.
Se t ∈ K verifica a identidade p̄(t) = 0, dizemos que t é uma raiz de p. Quando
o corpo K for infinito, pode-se demonstrar que dois polinômios coincidem se, e
somente se, as duas funções polinomiais correspondentes coincidem; por isso, neste
caso, frequentemente identificaremos p̄ com p e escreveremos p(t) ao invés de p̄(t).
0.3. Algumas noções de cálculo
Neste volume às vezes usaremos alguns conceitos básicos de cálculo, relativos a
funções de um subconjunto de R a R. Em particular, em alguns exemplos assumi-
remos que o leitor:
• conheça as noções elementares sobre os limites destas funções;
• conheça a noção de função contı́nua;
16 0. NOÇÕES PRELIMINARES

• conheça a noção de função diferenciável e as propriedades elementares da


operação de derivação.
Outra noção que aparecerá de vez em quando é a de sequência de elementos de um
conjunto X (por exemplo, se X = R, obtemos uma sequência de números reais).
Uma sequência finita a1 , . . . , an é uma lista ordenada de elementos de X e pode
ser identificada com o vetor (a1 , . . . , an ) ∈ X n . Uma sequência infinita é uma lista
ordenada da forma (a0 , a1 , . . .), sem um fim. Mais precisamente, podemos defini-la
como uma função a : N → X, sendo a(i) = ai . Frequentemente denotaremos uma
sequência por (ai )i∈N ou simplesmente por (ai ). Dada uma sequência infinita de
números reais, podemos verificar se existe o limite limi→∞ ai , o qual pode ser finito
ou infinito.

0.4. Demonstrações por indução


Na teoria que desenvolveremos, em várias ocasiões precisaremos demonstrar um
enunciado por indução. Este método se baseia no seguinte princı́pio. Suponhamos
de querer demostrar que um enunciado, dependente de um número natural n, vale
para todo n. Podemos atuar da seguinte maneira:
• começamos demonstrando que vale para n = 0;
• fixado um número n genérico, supomos que o enunciado valha para n; sob
esta hipótese, demonstramos que vale também para n + 1.
Desta maneira, podemos concluir que vale para todo n. De fato, pelo primeiro item
sabemos que vale para n = 0; como vale para n = 0, pelo segundo item podemos
deduzir que vale para n = 1; como vale para n = 1, podemos deduzir que vale para
n = 2 e assim em diante, portanto vale para todo n.
Por enquanto supusemos de partir de n = 0. Em alguns casos pode ser necessário
(ou mais natural) partir de n = n0 fixado e demonstrar que um enunciado vale para
todo n ≥ n0 . Neste caso aplicamos o princı́pio de indução da mesma maneira, só
considerando n0 ao invés de 0 no primeiro passo e fixando n ≥ n0 no segundo passo.
Exercı́cio. Demostre que:
n(n + 1)
1 + 2 + ··· + n = .
2
Resolução. Para n0 = 1 a fórmula precedente se torna 1 = 1·2 2 , ou seja, 1 = 1, logo
está válida. Agora suponhamos que valha para n ≥ 1 fixado e demonstremos que vale
para n + 1, ou seja, demonstremos que:
(n + 1)(n + 2)
1 + 2 + · · · + (n + 1) = .
2
Temos que:
(?) n(n + 1)
1 + 2 + · · · + (n + 1) = (1 + 2 + · · · + n) + (n + 1) = + (n + 1)
2
n  n+2 (n + 1)(n + 2)
= (n + 1) + 1 = (n + 1) = .
2 2 2
Na igualdade (?) usamos a hipótese de indução, ou seja, o fato que o enunciado valha para
n. ♦
0.5. NÚMEROS COMPLEXOS 17

Pode-se também aplicar o princı́pio de indução da seguinte maneira equivalente:


• começamos demonstrando que a tese vale para n = 0;
• fixado um número n genérico, supomos que o enunciado valha para todo
k ≤ n; sob esta hipótese, demonstramos que vale também para n + 1.
De novo podemos concluir que o enunciado vale para todo n. De fato, pelo primeiro
item sabemos que vale para n = 0; como vale para n = 0 (logo para todo k ≤ 0),
pelo segundo item podemos deduzir que vale para n = 1; como vale para n = 0 e
para n = 1 (logo para todo k ≤ 1), podemos deduzir que vale para n = 2 e assim
em diante, portanto vale para todo n. Já observamos que pode ser necessário (ou
mais natural) partir de n = n0 fixado ao invés de 0 no primeiro passo; neste caso,
no segundo passo, devemos fixar n ≥ n0 e supor que o resultado valha para todo k
tal que n0 ≤ k ≤ n, deduzindo que vale para n + 1.
Exercı́cio. Demostre que todo número inteiro n ≥ 2 pode ser fatorado em um produto
de números primos.
Resolução. Para n0 = 2 a tese é válida, pois 2 mesmo é primo. Suponhamos que o
resultado valha para todo k ∈ N tal que 2 ≤ k ≤ n, sendo n ≥ 2 fixado, e demonstremos
que vale para n + 1. Se n + 1 for primo, então já está fatorado em um produto de números
primos. Se não for primo, então existem p, q ∈ N tais que 2 ≤ p, q ≤ n e n + 1 = pq.
Pela hipótese de indução temos que p = p1 · · · pl e q = q1 · · · qh , sendo pi e qj primos para
todos i e j, logo n + 1 = p1 · · · pl q1 · · · qh , portanto n + 1 coincide com o produto de alguns
números primos. ♦

0.5. Números complexos


Vamos lembrar como construir o corpo dos números complexos a partir do dos
reais. Um número complexo é normalmente denotado da forma a+ib, sendo a, b ∈ R
e impondo que i2 = −1. Formalmente, podemos definir o número a + ib como o par
(a, b) ∈ R2 , definindo adequadamente a soma e o produto entre elementos de R2 .
Definição 0.5.1. O corpo dos números complexos (C, + , · , 0, 1) é definido da
seguinte maneira:
• como conjunto C := R2 ;
• a soma é definida por (a, b) + (c, d) := (a + c, b + d);
• o produto é definido por (a, b)(c, d) := (ac − bd, ad + bc).
O elemento neutro da soma é 0 := (0, 0) e o do produto é 1 := (1, 0). Os elementos
de C são ditos números complexos. ♦
Fica definido o seguinte morfismo de corpos:
ι: R → C
(1)
x 7→ (x, 0).
O leitor pode verificar facilmente que ι(x + y) = ι(x) + ι(y) e ι(xy) = ι(x)ι(y). Por
isso, apliando o lema 0.1.16, podemos subentender o mergulho ι e identificar x ∈ R
com (x, 0) ∈ C. Desta maneira, podemos pensar que R ⊂ C, isto é, que todo número
real seja um caso particular de número complexo. Enfim, definimos i := (0, 1). Com
18 0. NOÇÕES PRELIMINARES

esta notação, temos que (a, b) = (a, 0) + (0, b) = (a, 0) + (0, 1)(b, 0) = ι(a) + iι(b),
portanto, como decidimos de subentender ι, temos que (a, b) = a + ib.
Observação 0.5.2. Observamos que o grupo abeliano (C, + , 0) coincide com o
subjacente ao espaço vetorial R2 . Além disso, temos que x · (a, b) = (xa, xb), sendo
a, b, x ∈ R, isto é, o produto entre um número real e um número complexo coincide
com o produto externo de R2 . Por isso, o corpo complexo pode ser pensado como
o espaço vetorial R2 enriquecido pela operação de produto entre dois vetores, cujo
resultado é outro vetor.1 ♦
0.5.1. Quociente de números complexos. Já afirmamos que C é um corpo.
De fato, o leitor pode conferir facilmente que a definição 0.1.5 é satisfeita. Em
particular, vamos mostrar como verificar que todo número complexo não nulo é
invertı́vel. Suponhamos por enquanto de saber que essa propriedade vale. Então,
para calcular o quociente de dois números complexos (sendo o denominador não
nulo), se pode atuar da seguinte maneira:
a + ib a + ib c − id (a + ib)(c − id) ac + bd bc − ad
= · = 2 2 2
= 2 2
+i 2 .
c + id c + id c − id c −i d c +d c + d2
1 c 1
Em particular, c+id = c2 +d 2 − i c2 +d2 . Agora, voltando a supor de não saber que todo

número não nulo é invertı́vel, podemos conferir (usando a definição do produto) que
c 1 1 c 1

(c + id) · c2 +d2 − i c2 +d2 = 1, logo fica demonstrado que c+id = c2 +d 2 − i c2 +d2 .

0.5.2. Parte real, parte imaginária e módulo. Dado um número complexo


z = a + ib, sendo a, b ∈ R, o número real a é dito parte real de z e se denota
por Re z; o número real b é dito parte imaginária de z e se denota por Im z. Por
isso, z = a + ib equivale a z = Re z + i Im z. Queremos deixar claro que a parte
imaginária é também um número real, pois o produto por i não está incluso nela
por definição. Obviamente um número complexo z ∈ C é real (ou seja, pertence à
imagem do mergulho de corpos (1)) se, e somente se, Im z = 0. Se o número z ∈ C
é tal que Re z = 0, então é dito imaginário puro. Por isso, todo número complexo se
escreve de modo único como a soma entre um número √ real e um número imaginário
puro. Enfim,
p o módulo de z é definido por |z| := a2 + b2 , ou, equivalentemente,
|z| := (Re z)2 + (Im z)2 . É claro que o módulo de z = a + ib, sendo a, b ∈ R,
coincide com a norma euclidiana do vetor (a, b) ∈ R2 .

0.5.3. Conjugação. Dado z = a + ib, sendo a, b ∈ R, definimos o conjugado


de z como o número complexo z̄ := a − ib. Por isso, a conjugação é uma função
conj : C → C, z 7→ z̄, que deixa invariada a parte real e inverte o sinal da parte
imaginária. É imediato verificar que o número z ∈ C é real se, e somente se, z = z̄;
analogamente, z é imaginário puro se, e somente se, z̄ = −z. Ademais, valem as
seguintes fórmulas:
Re z = 21 (z + z̄) Im z = 1
2i
(z − z̄) |z|2 = z z̄.
1Essa operação não tem nada a ver nem com o produto interno nem com o produto vetorial.
0.5. NÚMEROS COMPLEXOS 19

0.5.4. Formas trigonométrica e exponencial. Seja z ∈ C um número com-


plexo. A representação da forma z = a + ib, sendo a, b ∈ R, é dita também repre-
sentação cartesiana. Dado que C, como conjunto, coincide por definição com R2 ,
representar um número complexo na forma cartesiana equivale substancialmente a
aplicar a definição, sendo (como vimos) z = a + ib = (a, b) ∈ C. Existe uma outra
maneira muito útil para denotar um número√complexo, utilizando as coordenadas
polares de R2 . Em particular, seja ρ = |z| = a2 + b2 e, no caso em que ρ 6= 0, seja
θ o ângulo orientado do vetor (1, 0) ao vetor (a, b).

z
ρ
b z = a + ib
θ
a

Se ρ 6= 0, temos que a = ρ cos θ e b = ρ sin θ, logo z = a + ib = ρ(cos θ + i sin θ).


Definição 0.5.3. Um número complexo z ∈ C é representado em forma trigo-
nométrica se for expresso da forma z = 0 ou z = ρ(cos θ + i sin θ), sendo ρ > 0 e
θ ∈ R. ♦
Podemos denotar cos θ+i sin θ também por eiθ . Na verdade, não se Ptrataznsomente
de uma notação, e sim estamos utilizando a série de potências ez := +∞
n=0 n! , a qual
converge para todo z ∈ C e, quando z = θ ∈ R, coincide com cos θ + i sin θ.
Definição 0.5.4. Um número complexo z ∈ C é representado em forma expo-
nencial se for expresso da forma z = 0 ou z = ρeiθ , sendo ρ > 0 e θ ∈ R. ♦
É imediato verificar que, se z = ρeiθ , então z̄ = ρe−iθ . Obviamente as repre-
sentações trigonométrica e exponencial são quase idênticas. A vantagem da forma
exponencial está no fato que, como valem as propriedades elementares das potências,
é mais fácil multiplicar números complexos. De fato, se z = ρeiθ e w = ηeiψ , te-
mos que zw = (ρη)ei(θ+ψ) . Em particular, dados z ∈ C e n ∈ N, para calcular a
potência z n utilizando a forma cartesiana, temos que calcular a potência n-ésima de
um binômio, a qual, para n muito grande, requer muitas contas. Ao contrário, em
forma exponencial, temos que (ρeiθ )n = ρn einθ .

0.5.5. Exercı́cios.
0.1. Verifique que z + w = z̄ + w̄ e zw = z̄ · w̄ para todos z, w ∈ C.
0.2. Calcule as seguintes potências de números complexos, exprimindo-as em forma
cartesiana:
√ √ 25 √ 40
(1) (1 + i)4 (2) 22 − i 22 (3) 23 + 2i .
√ √
2 2
0.3. Calcule as formas cartesianas dos números complexos z tais que z 3 = 2 +i 2 .

0.4. Calcule as formas cartesianas dos números complexos z tais que z 2 −4z +i+4 = 0.
20 0. NOÇÕES PRELIMINARES

0.5. (∗) Encontre todos os números complexos z que satisfazem o seguinte sistema:
 2
z z̄ − z̄z = −z̄
(z 3 + z̄)3 = 1.

0.6. Sistemas lineares em um corpo genérico


No primeiro capı́tulo do vol. I introduzimos a teoria geral dos sistemas lineares
reais, mostrando como resolvê-los através do método de escalonamento de Gauss.
Toda a teoria que estudamos se aplica a sistemas lineares cujos coeficientes per-
tençam a um corpo genérico, não necessariamente R. Em particular, a definição de
sistema linear e o método de escalonamento ficam válidos sem variações.

0.6.1. Exercı́cios.
0.6. Resolva o seguinte sistema linear, cujos coeficientes pertencem ao corpo C, com
o método de escalonamento de Gauss:

 x + y + iz = 1
2x + (2 − i)y + (2i + 1)z = i
ix + z = −i.

0.7. (∗) Resolva o seguinte sistema linear, cujos coeficientes pertencem ao corpo Z5 ,
com o método de escalonamento de Gauss:

 2x − y + 3z = 4
3x − 3y + 4z = −1
2x + 3y + z = 3.

0.8. Dependendo do valor do parâmetro k ∈ C, estabeleça quantas soluções tem o


seguinte sistema linear. 
 x + ky + z = 2
iy + z = 0
kx − y + iz = 0.

0.9. Dependendo do valor do parâmetro k ∈ C, estabeleça quantas soluções tem o


seguinte sistema linear. 
 x + kz = 0
2x + y + z = 0
kx + iy + z = 0.

0.10. (∗) Dependendo do valor do parâmetro k ∈ Z2 , estabeleça quantas soluções tem


o seguinte sistema linear. 
 x + y + kz = 1
ky + z = 0
x + ky = k.

0.7. Introdução à álgebra das matrizes


No cap. 3 do vol. I introduzimos as noções fundamentais relativas à álgebra das
matrizes reais. Agora vamos lembrá-las brevemente, generalizando-as a matrizes
com entradas em qualquer corpo.
0.7. INTRODUÇÃO À ÁLGEBRA DAS MATRIZES 21

0.7.1. Matrizes. Seja K um corpo fixado (o leitor pode pensar em R como no


exemplo-padrão).

Definição 0.7.1. Uma matriz de n linhas e m colunas, com entradas em K, é


uma função A : {1, . . . , n} × {1, . . . , m} → K. Dizemos também que A é uma matriz
de ordem (n, m). Definindo aij := A(i, j), usamos também a notação A = [aij ].
Denotamos por M (n, m; K) o conjunto das matrizes de ordem (n, m) com entradas
em K. ♦

Intuitivamente pensamos em uma matriz A ∈ M (n, m; K) com em uma “tabela”


formada por n linhas e m colunas, em que cada entrada é um elemento do corpo K.

Definição 0.7.2. Sejam A = [aij ], B = [bij ] ∈ M (n, m; K). A soma de matrizes


A + B é definida por A + B := [aij + bij ] ∈ M (n, m; K). Dado λ ∈ K, o produto
externo λA é definido por λA := [λaij ] ∈ M (n, m; K). ♦

Vimos no vol. I que M (n, m; R), com estas operações, é um espaço vetorial real.
Veremos no capı́tulo 1 (exemplo 1.1.5) que o mesmo vale para um corpo genérico.

Definição 0.7.3. A matriz nula de ordem (n, m), que denotamos por 0n,m ou
simplesmente por 0, é a cujas entradas são todas iguais a 0. ♦

É imediato verificar que 0n,m é o (único) elemento neutro da soma em M (n, m; K)


e que a matriz oposta a A = [aij ] é −A := [−aij ].

Definição 0.7.4. Uma matriz é dita quadrada de ordem n se o número de linhas


e o de colunas coincidem com n, isto é, se A ∈ M (n, n; K). Denotamos M (n, n; K)
também por M (n; K). ♦

Definição 0.7.5. Seja A = [aij ] ∈ M (n, m; K). A matriz transposta AT é


definida por AT := [a0ij ] ∈ M (m, n; K), sendo a0ij := aji . ♦

Definição 0.7.6. Uma matriz quadrada A = [aij ] ∈ M (n; K) é dita:


• simétrica se A = AT ; equivalentemente, aij = aji para todos i e j;
• antissimétrica se A = −AT ; equivalentemente, aij = −aji para todos i e j;
• diagonal se aij = 0 para i 6= j;
• triangular superior se aij = 0 para i > j;
• triangular inferior se aij = 0 para i < j. ♦

Definição 0.7.7. Seja A ∈ M (n; K) uma matriz quadrada. A diagonal principal


de A é o vetor (a11 , . . . , ann ) ∈ Kn , formado pelas entradas de A com os dois ı́ndices
coincidentes. ♦

Segue imediatamente das duas definições precedentes que uma matriz é diagonal
se, e somente se, todas as entradas não nulas (caso existam) pertencem à diagonal
principal. Além do mais, é imediato verificar que, se A for antissimétrica, então
toda entrada da diagonal principal é nula.
22 0. NOÇÕES PRELIMINARES

0.7.2. Produto de matrizes. Além da soma e do produto externo, outra


operação fundamental é o produto de matrizes, o qual não é interno a M (n, m; K),
para n e m fixados.
Definição 0.7.8. Sejam A = [aij ] ∈ M (n, m; K) e B = [bjk ] ∈ M (m, p; K).
O
Pmproduto de matrizes AB é definido por AB := [cik ] ∈ M (n, p; K), sendo cik =
j=1 aij bjk . ♦
Na seguinte definição, vamos usar o sı́mbolo de Kronecker δij , definido por δij = 1
se i = j e δij = 0 se i 6= j.
Definição 0.7.9. A matriz idêntica de ordem n é a matriz quadrada In = [δij ] ∈
M (n; K). ♦
O produto de matrizes satisfaz as seguintes propriedades fundamentais, que serão
esclarecidas mais em detalhe no capı́tulo 3:
• associatividade, isto é, (AB)C = A(BC) para todas A ∈ M (n, m; K), B ∈
M (m, p; K) e C ∈ M (p, q; K);
• bilinearidade (em particular, distributividade em relação à soma), isto é,
(λA+µB)C = λAC +µBC para todos A, B ∈ M (n, m; K), C ∈ M (m, p; K)
e λ, µ ∈ K e, analogamente, A(λB + µC) = λAB + µAC para todos A ∈
M (n, m; K), B, C ∈ M (m, p; K) e λ, µ ∈ K;
• a matriz idêntica de qualquer ordem atua como elemento neutro, isto é,
AIn = A para toda A ∈ M (m, n; K) e In A = A para toda A ∈ M (n, m; K).
Aplicando a definição 0.7.8 com n = m = p, vemos que o produto de matrizes
é uma operação interna a M (n; K), que é associativa e cujo elemento neutro é In .
Sendo bilinear em relação à soma, veremos no capı́tulo 3 que M (n; K) se torna uma
K-álgebra associativa unitária, portanto, em particular, um anel unitário.
Definição 0.7.10. Uma matriz A ∈ M (n; K) é dita invertı́vel se existe a inversa
em relação ao produto, que denotamos por A−1 . ♦
Isso significa que, se A for invertı́vel, então A−1 A = In e AA−1 = In . Na verdade,
uma destas duas condições é suficiente, pois implica a outra. Vimos no vol. I que A é
invertı́vel se, e somente se, det(A) 6= 0. Isso vale para qualquer corpo. Analisaremos
a noção de determinante em detalhe no capı́tulo 3, completando o que foi estudado
no vol. I.
Definição 0.7.11. Uma matriz A ∈ M (n; K) é dita ortogonal se A−1 = AT
(equivalentemente, podemos pedir que AT A = In ou que AAT = In ). ♦
0.7.3. Matrizes complexas. Quando K for o corpo complexo C, temos que
considerar uma operação a mais, isto é, a conjugação.2 Por isso, vamos dar algu-
mas definições especı́ficas do caso complexo, que serão fundamentais em seguida.
Lembraremos também algumas definições já mostradas nas seções anteriores, para
compará-las com as novas.
2Se poderia considerar a conjugação como caso particular de uma estrutura mais geral, mas
não é necessário para os nossos objetivos.
0.8. NOTAÇÃO DE EINSTEIN 23

Definição 0.7.12. Seja A = [aij ] ∈ M (n, m; K). A matriz transposta AT é


definida por AT := [a0ij ] ∈ M (m, n; K), sendo a0ij := aji . A matriz adjunta A† é
definida por A† := [a0ij ] ∈ M (m, n; K), sendo a0ij := āji . ♦
Isso significa que A† = Ā T , isto é, a matriz adjunta é a transposta conjugada.
Definição 0.7.13. Uma matriz quadrada A = [aij ] ∈ M (n; C) é dita:
• simétrica se A = AT ; equivalentemente, aij = aji ;
• hermitiana se A = A† ; equivalentemente, aij = āji ;
• antissimétrica se A = −AT ; equivalentemente, aij = −aji ;
• anti-hermitiana se A = −A† ; equivalentemente, aij = −āji ;
• ortogonal se AT = A−1 ; equivalentemente, AT A = In e/ou AAT = In ;
• unitária se A† = A−1 ; equivalentemente, A† A = In e/ou AA† = In . ♦
Segue imediatamente da definição precedente que, se A for hermitiana, então as
entradas da diagonal principal são reais, enquanto, se A for anti-hermitiana, então
as entradas da diagonal principal são imaginárias puras (mas não necessariamente
nulas, como no caso antissimétrico).
0.7.4. Exercı́cios.
0.11. Verifique que A ∈ M (n; C) é ao mesmo tempo simétrica e hermitiana se, e so-
mente se, é uma matriz real simétrica. Analogamente, A é ao mesmo tempo antissimétrica
e antihermitiana se, e somente se, é uma matriz real antissimétrica.
0.12. Verifique que a seguinte matriz A ∈ M (3; C) é unitária:
 1 
√ √1 0
 2 2
A =  √i − √i 0 .

2 2
0 0 1
0.13. Para cada uma das seguintes matrizes, estabeleça para quais valores do parâmetro
k ∈ C é hermitiana:
     
1 2 i i 2 3 k i i
A1 =  k 3 1 + 2i A2 = 2 4 k  A3 = −i k 2i .
−i 1 − ki 0 3 k 9 −i −2i k
0.14. Para cada uma das seguintes matrizes, estabeleça para quais valores do parâmetro
k ∈ C é anti-hermitiana:
     
i 0 i 0 0 3+i k 0 0
A1 = 0 i 2 + i A2 =  0 0 0  A3 =  0 0 0  .
i −2 + i k 3−k 0 0 0 0 ik
0.15. Demonstre que a soma de duas matrizes (anti-)hermitianas é (anti-)hermitiana
e que o produto de duas matrizes unitárias é unitário.

0.8. Notação de Einstein


Vamos introduzir uma notação particularmente eficaz em alguns contextos, dita
notação de Einstein, que consiste em subentender uma soma quando o mesmo ı́ndice
aparece acima e abaixo em uma fórmula. Se trata de uma convenção muito simples
24 0. NOÇÕES PRELIMINARES

a ser enunciada, mas que torna mais rápidas e elegantes as expressões com várias
somas envolvidas.
0.8.1. Combinações lineares. Suponhamos que um vetor v ∈ Rn seja com-
binação linear de uma famı́lia {a1 , . . . , ak } ⊂ Rn . Isso significa que v = λ1 a1 + · · · +
λk ak , sendo λ1 , . . . , λk ∈ R. Podemos usar a também a seguinte notação. Pomos o
ı́ndice de um escalar acima, isto é, λ1 , . . . , λk ∈ R, e escrevemos:
(2) v = λ i ai .
Dado que o ı́ndice i aparece acima e abaixo na mesma fórmula (2), fica subentendida
a soma correspondente, ou seja, a fórmula (2) equivale à v = ki=1 λi ai .
P

0.8.2. Produto de matrizes. Sejam A = [aij ] ∈ M (n, m; K) e B = [bjk ] ∈


M (m, p; K). O produto de matrizes AB = [cik ] ∈ M (n, p; K) fica definido pela
seguinte relação:
(3) cik = aij bjk .
Neste caso, atuamos da seguinte maneira. O ı́ndice j foi posto acima em relação às
entradas de A e abaixo em relação às de B, para que ficasse subentendida a soma
correspondente de 1 a m. Independentemente da posição vertical, continua valendo
o fato que o ı́ndice à esquerda indica a linha e o à direita indica a coluna, portanto a
entrada aij pode ser denotada também por aij , aij ou aij dependendo das exigências.
A situação muda invertendo i e j horizontalmente, pois, neste caso, vamos indicar
a entrada na posição (j, i) em vez que a na posição (i, j).
Por exemplo, vamos escrever desta maneira a demonstração da associatividade
do produto de matrizes. Sejam A = [aij ] ∈ M (n, m; K), B = [bjk ] ∈ M (m, p; K) e
C = [ckh ] ∈ M (p, q; K). Sejam AB = [dik ] ∈ M (n, p; K), BC = [ejh ] ∈ M (m, q),
(AB)C = [fih ] ∈ M (n, q; K) e A(BC) = [gih ] ∈ M (n, q; K). Devemos demonstrar
que fih = gih para todos i e h. Temos que:
fih = dik ckh = aij bj k ckh = aij ejh = gih .
Obviamente a demonstração com as somas explicitadas seria substancialmente a
mesma, mas a fórmula precedente é bem mais sintética e elegante do ponto de vista
visual, o que torna bem mais prático e rápido fazer cálculos longos. As vantagens
desta notação aumentam quando há muitos ı́ndices envolvidos ao mesmo tempo, o
que acontece em particular com a álgebra multilinear, mas já a este nı́vel pode-se
perceber a praticidade da notação de Einstein.
0.8.3. Significado dos ı́ndices. Quando estudaremos a dualidade, veremos
que a posição acima ou abaixo de um ı́ndice pode ter um significado intrı́nseco.
Em particular, veremos que um vetor de um espaço fixado levará os ı́ndices abaixo
(por convenção), enquanto um elemento do espaço dual os levará acima. Contudo,
quando os ı́ndices se referem a um escalar (isto é, a um elemento de um corpo K
fixado), então a posição do ı́ndice não tem nenhum significado conceitual, portanto
podemos escrever cada ı́ndice acima ou abaixo, dependendo do que for mais prático
em relação à formula que estamos considerando.
CAPı́TULO 1

Espaços vetoriais

Vimos no vol. I que Rn , com as operações de soma e produto externo, é um


espaço vetorial real. Em particular:
• como conjunto, Rn = {(x1 , . . . , xn ) : x1 , . . . , xn ∈ R};
• a soma é definida por (x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn );
• o produto externo é definido por λ(x1 , . . . , xn ) := (λx1 , . . . , λxn ), sendo
λ ∈ R.
Mostramos também que a noção de espaço vetorial real é mais geral, sendo Rn um
caso particular muito significativo (um para cada n). Por exemplo, vimos que:
• o conjunto das matrizes de k linhas e h colunas, com a soma de matrizes e
o produto externo, é um espaço vetorial real, que não coincide com nenhum
espaço Rn , embora “se pareça” com Rkh ;
• um subespaço vetorial de Rn de dimensão k, sendo k < n, é em particular
um espaço vetorial real, que não coincide com nenhum espaço Rn , embora
“se pareça” com Rk .
O fato que esses espaços “se pareçam” com Rn , para n adequado, significa que têm
a mesma estrutura de Rn , no sentido que esclareceremos no próximo capı́tulo; em
todo caso, são espaços diferentes. Agora é natural perguntar-se se existem espaços
vetoriais reais intrinsecamente diferentes de Rn , ou seja, com uma estrutura que
não é análoga à de Rn ; veremos que também neste caso a resposta é positiva e
entenderemos qual propriedade distingue essencialmente estes espaços de Rn .
Neste capı́tulo, antes de tudo, vamos repetir a definição geral de espaço vetorial,
mas em relação a um corpo genérico de escalares, que denotaremos por K. Isso não
vai complicar a teoria, pois a maioria das definições e dos enunciados que vimos
no vol. I se baseia somente no fato que R satisfaça a definição de corpo, portanto
pode ser reproduzida sem variações para K genérico. Neste contexto mais abran-
gente repetiremos várias noções básicas que já discutimos no vol. I (combinação
linear, famı́lia de geradores, base, etc.), mas de modo formalmente mais preciso e
demonstrando em detalhe cada afirmação ao respeito.

1.1. Axiomas de espaço vetorial


Definição 1.1.1. Seja K um corpo. Um espaço vetorial sobre K é uma tripla
formada por:
• um conjunto V , cujos elementos são chamados de vetores; indicaremos os
vetores por uma letra sublinhada, por exemplo ‘v’;
• uma operação + : V × V → V , chamada de soma;
25
26 1. ESPAÇOS VETORIAIS

• uma operação · : K × V → V , chamada de produto externo,


que satisfazem as seguintes propriedades fundamentais para todos v, w, z ∈ V e
λ, µ ∈ K.
• Propriedades da soma:
(1) associatividade: (v + w) + z = v + (w + z);
(2) existência do elemento neutro: existe um vetor 0 ∈ V , chamado de
vetor nulo, tal que 0 + v = v + 0 = v;
(3) existência do oposto: para todo v ∈ V , existe um vetor −v, chamado
de vetor oposto a v, tal que v + (−v) = (−v) + v = 0;
(4) comutatividade: v + w = w + v.
• Propriedades do produto externo:
(5) associatividade mista: (λµ)v = λ(µv);
(6) unitariedade: 1v = v.
• Propriedades que ligam soma e produto externo:
(7) distributividade em relação ao escalar : (λ + µ)v = λv + µv;
(8) distributividade em relação ao vetor : λ(v + w) = λv + λw. ♦
As propriedades (1)–(4) podem ser enunciadas equivalentemente afirmando que
(V, + , 0) é um grupo abeliano. As propriedades (1)–(8) são os axiomas de espaço
vetorial. Queremos deixar claro que o vetor nulo 0, definido na propriedade (2), é
um vetor fixado de V , enquanto o vetor oposto −v, definido na propriedade (3),
depende de v. Enfim, as propriedades (1) e (4) implicam que, dada uma famı́lia de
n vetores {v 1 , . . . , v n }, a soma v 1 + · · · + v n está bem definida independentemente
da ordem dos vetores e da ordem com a qual se realizam as somas particulares. Não
vamos mostrar a demostração formal desse enunciado, que pode ser realizada por
indução sobre n.
Observação 1.1.2. Acabamos de definir um espaço vetorial sobre K como uma
tripla (V, + , · ). Todavia, frequentemente afirmaremos que “V é um espaço ve-
torial”, subentendendo as duas operações e o corpo K quando forem claros pelo
contexto. ♦
Definição 1.1.3. O espaço vetorial Kn é definido da seguinte maneira:
• como conjunto, Kn = {(x1 , . . . , xn ) : x1 , . . . , xn ∈ K};
• a soma é definida por (x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn );
• o produto externo é definido por λ(x1 , . . . , xn ) := (λx1 , . . . , λxn ), sendo
λ ∈ K. ♦
O leitor pode demonstrar que Kn é efetivamente de um espaço vetorial sobre K,
como fizemos no vol. I (seção 2.3) em relação a Rn . Existem muitos outros exemplos
de espaços vetoriais sobre K, além de Kn .
Exemplo 1.1.4. Seja K[x] o conjunto dos polinômios em uma variável com coeficientes
em K (v. seção 0.2). Um elemento de K[x] é um polinômio da forma p(x) = a0 +a1 x+· · ·+
an xn , com a0 , . . . , an ∈ K. A soma é definida da seguinte maneira: sejam p(x), q(x) ∈ K[x],
sendo p(x) = a0 + a1 x + · · · + an xn e q(x) = b0 + b1 x + · · · + bm xm . Se n 6= m, a menos de
trocar os dois podemos supor que m < n. Pondo bm+1 = · · · = bn = 0, podemos escrever
1.1. AXIOMAS DE ESPAÇO VETORIAL 27

os polinômios na forma p(x) = a0 +a1 x+· · ·+an xn e q(x) = b0 +b1 x+· · ·+bn xn . Definimos
então p(x) + q(x) := (a0 + b0 ) + (a1 + b1 )x + · · · + (an + bn )xn . Enfim, definimos o produto
externo da seguinte maneira: λ(a0 + a1 x + · · · + an xn ) := (λa0 ) + (λa1 )x + · · · + (λan )xn . O
leitor pode verificar que as propriedades (1)–(8) são satisfeitas, portanto K[x] é um espaço
vetorial sobre K. O vetor nulo é o polinômio p(x) = 0 e, se p(x) = a0 + a1 x + · · · + an xn ,
o polinômio oposto é (−p)(x) = −a0 − a1 x − · · · − an xn . ♦
Exemplo 1.1.5. Seja M (n, m; K) o conjunto das matrizes de n linhas e m colunas
com entradas em K (v. seção 0.7). Indicamos uma matriz por [aij ], sendo i entre 1 e n e
sendo j entre 1 e m. Definimos a soma por [aij ] + [bij ] := [aij + bij ] e o produto externo
por λ[aij ] := [λaij ]. Obtemos um espaço vetorial sobre K, no qual o vetor nulo é a matriz
nula e −[aij ] = [−aij ]. ♦
Exemplo 1.1.6. Seja C 0 (R) o conjunto das funções contı́nuas de R a R. Definimos a
soma por (f +g)(x) := f (x)+g(x) e o produto externo por (λf )(x) := λ·f (x). Trata-se de
um espaço vetorial real, pois a soma de duas funções contı́nuas é contı́nua e um múltiplo
de uma função contı́nua é contı́nuo. Dado λ ∈ R, denotamos por cλ a função constante
cλ (x) = λ ∀x ∈ R. O vetor nulo é a função constante c0 e o oposto da função f é a função
−f definida por (−f )(x) := −(f (x)). Podemos definir de modo análogo o espaço vetorial
das funções k vezes diferenciáveis, ou de classe C k , ou analı́ticas. Também o conjunto de
todas as funções de R a R, com a soma e o produto externo que acabamos de definir, é
um espaço vetorial real. ♦
Exemplo 1.1.7. Seja SeqK o conjunto das sequências com entradas em K. Isso significa
que um elemento de SeqK é uma sequência (a0 , a1 , . . .), com ai ∈ K. Denotamos a sequência
por (ai ). A soma é definida por (ai ) + (bi ) := (ai + bi ); o produto externo é definido por
λ(ai ) := (λai ). O leitor pode verificar que as propriedades (1)–(8) são satisfeitas, portanto
SeqK é um espaço vetorial sobre K. Em particular, o vetor nulo é a sequência (0, 0, . . .) e
−(ai ) = (−ai ). ♦
A partir das propriedades (1)–(8), podemos deduzir outras propriedades signifi-
cativas, enunciadas no seguinte lema.
Lema 1.1.8. Seja V um espaço vetorial. Valem as seguintes propriedades.
(9) Se v + w = v + z, então w = z.
(10) O vetor nulo 0 é único, ou seja, não existem outros vetores de V que satis-
fazem a propriedade (2).
(11) Dado um vetor v ∈ V , o vetor oposto −v é único, ou seja, não existem
outros vetor de V que satisfazem a propriedade (3).
(12) 0v = 0 para todo v ∈ V .
(13) λ0 = 0 para todo λ ∈ K.
(14) (−1)v = −v para todo v ∈ V .
(15) λv = 0 se, e somente se, λ = 0 ou v = 0.
(16) Dados v ∈ V e λ, µ ∈ K, se v 6= 0 e λ 6= µ, então λv 6= µv.
Demonstração. (9) Acrescentando −v de ambos os lados da igualdade v+w =
v + z, obtemos 0 + w = 0 + z, logo w = z. (10) Seja 00 outro elemento neutro da
soma. Então 0 + 00 = 0, pois 00 é neutro. Também 0 + 00 = 00 , pois 0 é neutro. Logo
0 = 00 . (11) Seja −v 0 outro oposto de v. Então, v + (−v) = v + (−v 0 ) = 0. Pelo
item 9, a igualdade v + (−v) = v + (−v 0 ) implica −v = −v 0 . (12) Pela propriedade
28 1. ESPAÇOS VETORIAIS

7, temos (0 + 0)v = 0v + 0v. Como 0 + 0 = 0, obtemos 0v = 0v + 0v, logo


0v + 0 = 0v + 0v. Pelo item 9, temos 0 = 0v. (13) Pela propriedade 8, temos
λ(0 + 0) = λ0 + λ0. Como 0 + 0 = 0, temos λ0 = λ0 + λ0, logo λ0 + 0 = λ0 + λ0.
Pelo item 9, temos 0 = λ0. (14) Pelas propriedades 6 e 7 e pelo item 12, temos
(−1)v + v = (−1)v + 1v = (−1 + 1)v = 0v = 0. Pelo item 11, (−1)v = −v. (15)
Seja λv = 0 com λ 6= 0. Pelas propriedades 5 e 6 temos λ1 (λv) = ( λ1 λ)v = 1v = v.
Ademais, λ1 (λv) = λ1 0 = 0 pelo item 12, logo v = 0. (16) Se λv = µv, pela
propriedade 8 temos (λ − µ)v = 0. Pelo item 15, se v 6= 0 temos λ − µ = 0, logo
λ = µ. 
Observação 1.1.9. O conjunto {0}, com as operações 0 + 0 = 0 e λ · 0 = 0
para todo λ ∈ K, é um espaço vetorial sobre K, pois as propriedades (1)–(8) são
satisfeitas. Este espaço às vezes é chamado de espaço vetorial nulo. ♦
O seguinte corolário mostra que, se o corpo K for infinito (como no caso de R ou
C), então {0} é o único espaço vetorial sobre K que contém uma quantidade finita
de elementos.
Corolário 1.1.10. Seja V um espaço vetorial sobre K diferente de {0}. Então
a cardinalidade de V é maior ou igual à de K. Por isso, se K for infinito, V o é
também.
Demonstração. Por hipótese existe v 0 ∈ V diferente de 0. Consideremos o
conjunto A = {λv 0 : λ ∈ K} ⊂ V . Pelo item 16 do lema 1.1.8, cada λ ∈ K determina
um elemento de A diferente dos demais, portanto a função λ 7→ λv 0 é uma bijeção
entre K e A ⊂ V , logo temos a tese. 
A demonstração do corolário precedente afirma que, se um espaço vetorial contém
um vetor v 0 não nulo, então os elementos da reta formada pelos múltiplos de v 0 são
todos distintos.

1.2. Combinações lineares


No vol. I (seção 2.5) introduzimos a noção de combinação linear e mostramos
como verificar concretamente se um vetor de Rn é combinação linear de uma famı́lia
dada. Em relação a um espaço vetorial genérico a definição é a mesma. Agora vamos
repeti-la e vamos mostrar como generalizá-la a famı́lias infinitas de vetores.
Notação 1.2.1. Daqui em diante denotaremos por V um espaço vetorial sobre
um corpo K fixado, sem repeti-lo toda vez. ♦
Definição 1.2.2. Sejam v, v 1 , . . . , v k ∈ V . O vetor v é dito combinação linear
da famı́lia {v 1 , . . . , v k } se existem λ1 , . . . , λk ∈ K tais que v = λ1 v 1 + · · · + λk v k . ♦
Quando V = Kn , para verificar se um vetor é combinação linear de uma famı́lia
finita dada, temos que analisar o sistema linear correspondente, conferindo se existe
pelo menos uma solução. A mesma técnica vale para espaços vetoriais mais gerais,
mas nem para todos.
1.2. COMBINAÇÕES LINEARES 29

Exercı́cio 1.2.3. Dados os seguintes polinômios reais:


p(x) = x3 + (k + 1)x + 2
p1 (x) = kx3 + 1 p2 (x) = x2 + kx + 3 p3 (x) = x3 + x2 − x + 3
estabeleça para quais valores do parâmetro k ∈ R o polinômio p(x) é combinação linear
da famı́lia {p1 (x), p2 (x), p3 (x)} no espaço vetorial real R[x] (v. exemplo 1.1.4).
Resolução. Considerando como são definidas a soma e o produto externo no espaço
R[x], temos que verificar se a quadrupla dos coeficientes de p(x), ou seja, (1, 0, k + 1, 2),
é combinação linear das quadruplas dos coeficientes de p1 (x), p2 (x) e p3 (x) até o terceiro
grau, ou seja, (k, 0, 0, 1), (0, 1, k, 3) e (1, 1, −1, 3). Obtemos o seguinte sistema linear:
   
k 0 1 1 1 3 3 2
 (I, II, III, IV ) → 0 1 1  III → III − kI
0 1 1 0   0 

0 k −1 k+1  (IV, II, I, III) k 0 1
 1  IV → IV − kII
1 3 3 2 0 k −1 k+1
   
1 3 3 2 1 3 3 2
0 1 1 0   III → III + 3kII 0 1 1 0 

 
0 −3k 1 − 3k 1 − 2k  0 0 1 1 − 2k 
0 0 −1 − k k+1 0 0 −1 − k k+1
 
1 3 3 2
0 1 1 0 
IV → IV + (1 + k)III  .
0 0 1 1 − 2k 
0 0 0 (1 + k)(2 − 2k)
Portanto, o polinômio p(x) é combinação linear da famı́lia {p1 (x), p2 (x), p3 (x)} se, e so-
mente se, k = ±1. ♦

Exercı́cio 1.2.4. Estabeleça para quais valores do parâmetro k ∈ R a matriz A é


combinação linear da famı́lia {A1 , A2 , A3 } no espaço vetorial real M (2, 3; R) (v. exemplo
1.1.5), sendo:
       
0 k+1 0 2 1 2 0 1 0 2 0 2
A= A1 = , A2 = , A3 = .
0 1 0 k 1 k −1 k −1 0 2 0
Resolução. Considerando como são definidas a soma e o produto externo em
M (2, 3; R), temos que verificar se a sêxtupla das entradas de A, ou seja, (0, k + 1, 0, 0, 1, 0),
é combinação linear das sêxtupla das entradas de A1 , A2 e A3 , ou seja, (2, 1, 2, k, 1, k),
(0, 1, 0, −1, k, −1) e (2, 0, 2, 0, 2, 0). Portanto obtemos o seguinte sistema linear:
   
2 0 2 0 1 0 1 0
1 1 0
 k + 1  I → 21 I 1 1 0
 k + 1
 II → II − I
2 0 2
 0  III → III − I 0 0 0
  0  III → III − I
k −1 0 0  IV ↔ V 1 k 2 1 
    IV → IV − kI
1 k 2 1  V I → V I − IV k −1 0 0 
k −1 0 0 0 0 0 0
   
1 0 1 0 1 0 1 0
0 1 −1
 k + 1  III → III − kII 0 1
 −1 k+1  
0 k 1 1  IV → IV + II 0 0 1 + k
 2
−k − k + 1
0 −1 −k 0 0 0 −k − 1 k+1
30 1. ESPAÇOS VETORIAIS

 
1 0 1 0
0 1 −1 k+1 
IV → IV + III  2
.
0 0 1+k −k − k + 1
0 0 0 2 − k2

Portanto, A é combinação linear de {A1 , A2 , A3 } se, e somente se, k = ± 2 (não é
necessário analisar k = −1, pois já está excluso pela última equação). ♦

Exercı́cio 1.2.5. No espaço vetorial real C 0 (R) (v. exemplo 1.1.6), estabeleça se a
função f (x) = ex é combinação linear da famı́lia {f1 (x), f2 (x)}, sendo f1 (x) = e−x e
f2 (x) = x4 .
Resolução. Neste caso não há um modo canônico que nos reconduza a um sistema
linear, pois os vetores considerados, que são funções contı́nuas, não podem ser interpretados
de modo evidente como uma n-upla de números reais. Se poderia construir um sistema
linear marcando alguns pontos de R e avaliando as funções nestes pontos, mas, para este
exercı́cio, uma técnica ad hoc pode ser mais eficaz. Suponhamos que f seja combinação
de f1 e f2 , ou seja, suponhamos que existam λ, µ ∈ R tais que:
(4) ex = λe−x + µx4 .
Queremos deixar claro que λ e µ são números reais, não funções. Avaliando os dois lados
de (4) em x = 0, obtemos 1 = λ, logo ex = e−x + µx4 . Ademais, limx→−∞ ex = 0 e
limx→−∞ (e−x + µx4 ) = +∞, portanto é impossı́vel que ex = e−x + µx4 . Por isso, ex não
é combinação linear de e−x e x4 . ♦

Observação 1.2.6. O vetor 0 é combinação linear de qualquer famı́lia de vetores


{v 1 , . . . , v k }. De fato, 0 = 0v 1 + · · · + 0v k . ♦
Observação 1.2.7. Um vetor v é combinação linear da famı́lia {v 1 } se, e so-
mente se, é múltiplo de v 1 . Em particular, cada vetor é combinação linear de si
mesmo. ♦
1.2.1. Famı́lias infinitas. Por enquanto consideramos combinações lineares
de uma famı́lia finita de vetores. A definição pode ser facilmente estendida a uma
famı́lia genérica, mesmo se infinita.
Definição 1.2.8. Seja A ⊂ V um subconjunto não vazio. Um vetor v ∈ V é dito
combinação linear de A se, e somente se, existe um subconjunto finito {v 1 , . . . , v k } ⊂
A tal que v é combinação linear de {v 1 , . . . , v k }. ♦
Observamos que, para A finito, a definição 1.2.8 é coerente com a definição
1.2.2. De fato, seja A = {v 1 , . . . , v k } e suponhamos que v seja combinação linear de
A conforme a definição 1.2.2. Então v é combinação linear da subfamı́lia finita de
A formada por A mesma, portanto v é combinação linear de A também conforme
a definição 1.2.8. Reciprocamente, suponhamos que v seja combinação linear de A
conforme a definição 1.2.8. Isso significa que v é combinação linear de uma subfamı́lia
(necessariamente finita) de A. A menos da ordem, seja v = λ1 v 1 + · · · + λh v h , com
1 ≤ h ≤ k. Então, v = λ1 v 1 + · · · + λh v h + 0v h+1 + · · · + 0v k , logo v é combinação
linear de A também conforme a definição 1.2.2.
1.3. SUBESPAÇOS VETORIAIS 31

Exemplo 1.2.9. Considerando o espaço vetorial K[x] (v. exemplo 1.1.4), seja A =
{1, x, x2 , . . .} ⊂ K[x]. Então qualquer elemento de K[x] é combinação linear dos vetores
de A. Se consideramos B = {1, x2 , x4 , . . .} ⊂ V , então as combinações lineares de B são
os polinômios que são soma de monômios de grau par. ♦
Exemplo 1.2.10. Considerando o espaço vetorial SeqK (v. exemplo 1.1.7), seja A =
{(1, 0, 0, . . .), (0, 1, 0, . . .), . . .} ⊂ SeqK . Então não podemos afirmar que qualquer elemento
de SeqK é combinação linear de A. De fato, pela definição 1.2.8, uma combinação linear
envolve uma quantidade finita de vetores de A, sendo esta a única possibilidade, pois nem
definimos as somas infinitas. Portanto, uma sequência (ai ) é combinação linear de A se,
e somente se, contém uma quantidade finita de elementos não nulos. Isso acontece se, e
somente se, a sequência é definitivamente nula, ou seja, se existe N ∈ N tal que an = 0
para todo n ≥ N . ♦
1.2.2. Exercı́cios.
1.1. No espaço vetorial M (2; C), estabeleça para quais valores do parâmetro k ∈ C a
matriz A é combinação linear da famı́lia {A1 , A2 , A3 }, sendo:
       
1 2 k 1−i 1 1−i i + 2 −2
A= A1 = , A2 = , A3 = .
0 0 0 0 k−i 2 0 2i
1.2. No espaço vetorial SeqC , estabeleça para quais valores do parâmetro k ∈ C a
sequência s é combinação linear da famı́lia {s1 , s2 , s3 }, sendo s = (1, 2+k, 3−k 2 , k, 0, 0, . . .),
s1 = (i, 0, 0, . . .), s2 = (0, i, 0, 0, . . .) e s3 = (0, 0, i, 0, 0, . . .).
1.3. No espaço vetorial Q[x], estabeleça para quais valores do parâmetro k ∈ Q o
polinômio p(x) é combinação linear da famı́lia {q(x), r(x)}, sendo p(x) = x2 , q(x) =
x2 − x − k e r(x) = x2 + kx + 2.
1.4. No espaço vetorial C 0 (R), estabeleça se a função f (x) é combinação linear da
famı́lia {g(x), h(x)}, sendo f (x) = sin x, g(x) = x e h(x) = x2 .
1.5. (∗) Consideremos o corpo Z5 e o espaço vetorial Z35 . Estabeleça para quais valores
do parâmetro k ∈ Z5 o vetor (2, 0, k) é combinação linear da famı́lia {(1, 1, 3), (−1, 2, 1)}.

1.3. Subespaços vetoriais


Também a noção de subespaço vetorial foi estudada em detalhe no vol. I (seção
2.6), somente em relação a Rn . Agora vamos repetir brevemente a definição e os
resultados fundamentais ao respeito, de modo mais rigoroso e em relação a espaços
vetoriais quaisquer.
Definição 1.3.1. Um subconjunto não vazio W ⊂ V é dito subespaço vetorial
de V se, e somente se:
(1) para todos w1 , w2 ∈ W , temos que w1 + w2 ∈ W ;
(2) para todos w ∈ W e λ ∈ K, temos que λw ∈ W . ♦
Isso significa que W ⊂ V é um subespaço vetorial se, e somente se, é possı́vel
restringir a W a soma e o produto externo de V , obtendo operações bem definidas
em W .
Lema 1.3.2. Seja W ⊂ V um subespaço vetorial. Sejam 0 o vetor nulo de V e,
dado w ∈ W , seja −w o oposto de w em V . Valem as seguintes propriedades.
32 1. ESPAÇOS VETORIAIS

(1) 0 ∈ W .
(2) Se w ∈ W , então −w ∈ W .
(3) W herda canonicamente de V uma estrutura de espaço vetorial sobre K,
obtida restringindo a W a soma e o produto externo de V . O vetor nulo de
W coincide com o de V e, dado w ∈ W , o oposto de w em W coincide com
o oposto de w em V .
Demonstração. (1) Por definição W não é vazio, logo existe w ∈ W . Pelo
item 2 da definição 1.3.1, temos que 0w ∈ W , logo 0 ∈ W . (2) Seja w ∈ W . Pelo
item 2 da definição 1.3.1, temos que (−1)w ∈ W , logo −w ∈ W . (3) Por definição
de subespaço vetorial, a restrição da soma e do produto externo de V a W definem
duas operações + : W × W → W e · : K × W → W . As propriedades (1),(4),(5)–
(8) valem para todos os vetores de V , portanto, em particular, para os de W . Já
mostramos que 0 ∈ W e, se w ∈ W , então −w ∈ W , sendo −w o oposto em V . Por
isso, também as propriedades (2) e (3) valem em W . Ademais, pelos itens 10 e 11
do lema 1.3.1, o elemento neutro e o oposto de um vetor são únicos em W , portanto
coincidem com os de V . 
Exemplo 1.3.3. Seja V o espaço vetorial K[x] e seja W ⊂ V o subconjunto formado
pelos polinômios de grau menor ou igual a 5 e pelo polinômio nulo. Trata-se de um
subespaço vetorial. De fato, se p(x) = a0 +a1 x+· · ·+a5 x5 , q(x) = b0 +b1 x+· · ·+b5 x5 ∈ W ,
então p(x) + q(x) = (a0 + b0 ) + (a1 + b1 )x + · · · + (a5 + b5 )x5 ∈ W e λp(x) = (λa0 ) +
(λa1 )x + · · · + (λa5 )x5 ∈ W . ♦
Exemplo 1.3.4. Sejam V o espaço vetorial K[x] e W ⊂ V o subconjunto formado
pelos polinômios de grau maior ou igual a 5 e pelo polinômio nulo. Nesse caso não se
trata de um subespaço vetorial. De fato, por exemplo, p(x) = x5 + x4 , q(x) = −x5 ∈ W ,
mas p(x) + q(x) = x4 ∈/ W. ♦
Exemplo 1.3.5. Sejam V o espaço vetorial SeqK (v. exemplo 1.1.7) e W ⊂ V o
conjunto das sequências definitivamente nulas. Então W é um subespaço vetorial de V . De
fato, sejam (ai ) e (bi ) duas sequências definitivamente nulas. Em particular, suponhamos
que ai = 0 para todo i ≥ N e que bi = 0 para todo i ≥ M . Então ai + bi = 0 para todo
i ≥ max{N, M }, logo (ai ) + (bi ) é definitivamente nula. Ademais, para λ ∈ K, temos que
λai = 0 para todo i ≥ N , logo λ(ai ) é definitivamente nula. ♦
Exemplo 1.3.6. Sejam V o espaço vetorial C 0 (R) (v. exemplo 1.1.6) e W = {f : R →
R contı́nuas : f (x) = 0 ∀x ≥ 3} ⊂ V . Trata-se de um subespaço vetorial. De fato,
sejam f (x), g(x) ∈ W . Então, para qualquer x0 ≥ 3 fixado, temos que (f + g)(x0 ) =
f (x0 ) + g(x0 ) = 0 + 0 = 0, logo f (x) + g(x) ∈ W . Analogamente, para qualquer x0 ≥ 3
fixado, temos que (λf )(x0 ) = λf (x0 ) = λ0 = 0, logo λf (x) ∈ W . ♦
Exemplo 1.3.7. Seja V o espaço vetorial C 0 (R). Seja W = {f : R → R contı́nuas :
∃x ∈ R : f (x) = 0} ⊂ V . Nesse caso não se trata de um subespaço vetorial. De fato, a
função f (x) = x pertence a W , pois f se anula em x = 0. Também g(x) = 1 − x pertence
a W , pois g se anula em x = 1. Todavia, a soma (f + g)(x) = 1 não pertence a W , pois a
função constante 1 não se anula em nenhum ponto. ♦

1.3.1. Independência das duas condições. Os seguintes exemplos mostram


que os itens (1) e (2) da definição 1.3.1 são independentes.
1.3. SUBESPAÇOS VETORIAIS 33

Exemplo 1.3.8. Seja W = {(x, 0) ∈ R2 : x ≥ 0} ⊂ R2 . Então W satisfaz o item


(1) da definição 1.3.1, mas não o item (2), pois (1, 0) ∈ W mas −(1, 0) ∈
/ W . O mesmo
acontece para W = Z2 ⊂ R2 . ♦
Exemplo 1.3.9. Seja W = {(x, y) ∈ R2 : x2 = y 2 } ⊂ R2 . Trata-se da união das duas
retas y = x e y = −x. Então W satisfaz o item (2) da definição 1.3.1, mas não o item (1),
pois (1, 1), (1, −1) ∈ W , mas (1, 1) + (1, −1) = (2, 0) ∈
/ W. ♦
Observamo também que, conforme o lema 1.3.2, um subespaço vetorial de V
tem que conter 0 e os opostos dos seus elementos, mas estas duas propriedades
não são suficientes para garantir que W seja um subespaço vetorial. De fato, para
demonstrá-las, só usamos o item (2) da definição 1.3.1, não o item (1), portanto o
subconjunto W do exemplo 1.3.9 contém 0 e todos os opostos dos seus elementos,
mas não é um subespaço vetorial. Contudo, nem é necessário que valha o item
(2): por exemplo, o subconjunto W = Z2 ⊂ R2 , considerado no exemplo 1.3.8, não
satisfaz o item (2), mas contém 0 e os opostos dos seus elementos. O mesmo vale
em relação ao subconjunto W = {−1, 0, 1} ⊂ R, que não satifaz nem o item (1) nem
o (2).
1.3.2. Subespaços vetoriais e combinações lineares. Vimos que, para veri-
ficar se um subconjunto é um subespaço vetorial, temos que verificar se está fechado
pela soma e pelo produto externo. O item (2) do seguinte lema mostra um modo
levemente mais rápido para reconhecer os subespaços vetoriais, como já observamos
no vol. I.
Lema 1.3.10. Seja W ⊂ V um subconjunto não vazio. As seguintes propriedades
de W são equivalentes:
(1) W é um subespaço vetorial;
(2) para todos w1 , w2 ∈ W e λ1 , λ2 ∈ K, temos que λ1 w1 + λ2 w2 ∈ W ;
(3) para todos k ∈ N, w1 , . . . , wk ∈ W e λ1 , . . . , λk ∈ K, temos que λ1 w1 + · · · +
λk wk ∈ W ;
(4) para todo A ⊂ W não vazio, as combinações lineares de A pertencem a W .
Demonstração. (1) ⇒ (2). Pelo item 2 da definição 1.3.1, temos que λ1 w1 ,
λ2 w2 ∈ W . Pelo item 1, temos que λ1 w1 +λ2 w2 ∈ W . (2) ⇒ (1). Sejam w1 , w2 ∈ W .
Então w1 +w2 = 1w1 +1w2 ∈ W , portanto vale o item 1 da definição 1.3.1. Ademais,
sejam w ∈ W e λ ∈ K. Então λw = λw + 0w ∈ W , portanto vale o item 2.
(2) ⇒ (3). Demonstremos a tese por indução. Acabamos de provar que vale para
k = 1. Ademais, por hipótese, vale para k = 2. Seja w = λ1 w1 +· · ·+λk−1 wk−1 , com
k ≥ 3. Pela hipótese de indução, w ∈ W . Então λ1 w1 +· · ·+λk wk = 1w+λk wk ∈ W .
(3) ⇒ (2). Óbvio, pois o item 2 é um caso particular do item 3, para k = 2. (3) ⇒
(4). Pela definição 1.2.8, uma combinação linear dos vetores de A é uma combinação
linear de uma subfamı́lia finita, logo pertence a W pelo item 3. (4) ⇒ (3). Obvio,
pois o item 3 é um caso particular do item 4, para A finito. 
Exemplo 1.3.11. Seja V o espaço vetorial C 0 (R) (v. exemplo 1.1.6). Seja W ⊂ V
o subconjunto das funções diferenciáveis. Então W é um subespaço vetorial. De fato,
sejam f (x), g(x) ∈ W e λ, µ ∈ R. Temos que (λf (x) + µg(x))0 = λf 0 (x) + µg 0 (x), portanto
λf (x) + µg(x) ∈ W . Isso prova que W é um subespaço vetorial. ♦
34 1. ESPAÇOS VETORIAIS

1.3.3. Subespaços vetoriais e sistemas lineares. Demonstramos no vol. I


que as soluções de um sistema linear homogêneo de n variáveis formam um subespaço
vetorial de Kn e que todo subespaço vetorial de Kn é o conjunto das soluções de um
sistema linear homogêneo.1 Ademais, o conjunto das soluções de um sistema linear
não homogêneo não pode ser um subespaço vetorial, pois não contém o vetor nulo.
Contudo, um sistema de equações não linear pode definir um subespaço vetorial,
pois pode ser equivalente a um sistema linear.
Exercı́cio 1.3.12. Verifique que, para cada um dos três seguintes sistemas não lineares
de uma equação nas variáveis x e y, o conjunto das soluções é um subespaço vetorial de
R2 :
x3 − y 3 = 0 x2 + y 2 = 0 ex = 1.
Resolução. Os conjuntos de soluções são respetivamente: {(x, x) : x ∈ R}, {(0, 0)},
{(0, y) : y ∈ R}. Os três são subespaços vetoriais. ♦

1.3.4. Exercı́cios.
1.6. Seja V = C[x] e seja W o subconjunto formado pelos polinômios com coeficientes
reais. Estabeleça se W é um subespaço vetorial de V .
1.7. Seja V = C 0 (R) e seja W = C 1 (R) o subconjunto formado pelas funções de classe
C 1,isto é, diferenciáveis com derivada contı́nua. Estabeleça se W é um subespaço vetorial
de V .
1.8. Lembramos que uma função f : R → R é dita de suporte compacto se existe M > 0
tal que f (x) = 0 para todo x tal que |x| > M . Seja V = C 0 (R) e seja W = Cc0 (R) o
subconjunto formado pelas funções contı́nuas de suporte compacto. Estabeleça se W é
um subespaço vetorial de V .
1.9. Sejam V = SeqK e W ⊂ V o subconjunto formado pelas sequências com ao menos
uma entrada nula. Estabeleça se W é um subespaço vetorial de V .
1.10. Sejam V = SeqC e W ⊂ V o subconjunto formado pelas sequências (zi ) limitadas,
isto é, tais que existe M > 0 tal que |zi | ≤ M para todo i ∈ N. Estabeleça se W é um
subespaço vetorial de V .

1.4. Geradores
No vol. I (seção 2.7) introduzimos a noção de “famı́lia de geradores” de um su-
bespaço vetorial, somente em relação a famı́lias finitas e a subespaços de Rn . Agora
vamos lembrar brevemente esta noção, generalizando-a a famı́lias não necessaria-
mente finitas e a espaços vetoriais quaisquer.
1.4.1. Famı́lias finitas. Começamos considerando um espaço vetorial genérico,
sem ainda tirar o vı́nculo de finitude da famı́lia de geradores.
Notação 1.4.1. Sejam v 1 , . . . , v k ∈ V . Denotamos por hv 1 , . . . , v k i o subcon-
junto de V formado pelas combinações lineares de {v 1 , . . . , v k }, ou seja:
hv 1 , . . . , v k i := {v ∈ V : ∃λ1 , . . . , λk ∈ K : v = λ1 v 1 + · · · + λk v k }. ♦
1No vol. I só consideramos K = R, mas a demonstração é a mesma para K genérico.
1.4. GERADORES 35

Lema 1.4.2. Sejam v 1 , . . . , v k ∈ V . O subconjunto hv 1 , . . . , v k i de V é um su-


bespaço vetorial.
Demonstração. Seja W := hv 1 , . . . , v k i. Sejam w1 , w2 ∈ W e λ1 , λ2 ∈ K. Por
definição de W , existem µ1,1 , . . . , µ1,k , µ2,1 , . . . , µ2,k ∈ K tais que:
w1 = µ1,1 v 1 + · · · + µ1,k v k w2 = µ2,1 v 1 + · · · + µ2,k v k .
Logo:
λ1 w1 + λ2 w2 = (λ1 µ1,1 + λ2 µ2,1 )v 1 + · · · + (λ1 µ1,k + λ2 µ2,k )v k ∈ W,
sendo λ1 µ1,i + λ2 µ2,i ∈ K para todo i. 
Definição 1.4.3. O subespaço W := hv 1 , . . . , v k i é dito subespaço vetorial ge-
rado pela famı́lia {v 1 , . . . , v k }. O conjunto {v 1 , . . . , v k } é dito famı́lia de geradores
de W . Estabelecemos por convenção que h∅i := {0}. ♦
O seguinte lema mostra que o subespaço hv 1 , . . . , v k i é o mı́nimo subespaço de V
que contém os vetores v 1 , . . . , v k , onde a palavra “mı́nimo” se refere à ordem (parcial)
determinada pela inclusão. Isso significa que hv 1 , . . . , v k i, além de ser um subespaço
vetorial que contém v 1 , . . . v k , está incluso em todos os subespaços vetoriais que
contêm estes vetores. De fato, é a interseção deles.
Lema 1.4.4. Seja V := {Vi }i∈I a famı́lia dos subespaços vetoriais de V tais T que
v 1 , . . . , v k ∈ Vi . Existe i0 ∈ I tal que Vi0 = hv 1 , . . . , v k i. Além disso, Vi0 = i∈I Vi ,
logo Vi0 é o mı́nimo (em relação à inclusão) da famı́lia V.
Demonstração. O fato que hv 1 , . . . , v k i seja um elemento da famı́lia V, que
denotamos por Vi0 , é uma reformulação do lema 1.4.2, sendo óbvio que hv 1 , . . . , v k i
contenha v 1 , . . . , v k . Como v 1 , . . . , v k ∈ Vi , pelo lema 1.3.10 item 3, Vi contém
as combinações lineares T de v 1 , . . . , v k , logo Vi0 ⊂ Vi . Como isso vale para todo
i ∈ I,Ttemos que Vi0 ⊂ i∈I Vi . Sendo Vi0 um elemento da famı́lia V, temos que
Vi0 ⊃ i∈I Vi , logo vale a igualdade. 
O lema 1.4.4 confirma que a convenção h∅i := {0} é razoável. De fato, o mı́nimo
subespaço vetorial de V que contém ∅ é o mı́nimo entre todos os subespaços vetoriais
de V , isto é, {0}. Portanto, com esta convenção, o lema 1.4.4 continua valendo
também para k = 0.
1.4.2. Famı́lias genéricas. Podemos generalizar a definição 1.4.1 a famı́lias
genéricas de V , não necessariamente finitas.
Notação 1.4.5. Seja A ⊂ V um subconjunto. Denotamos por hAi o subcon-
junto de V formado pelas combinações lineares dos elementos de A. ♦
Lema 1.4.6. hAi é um subespaço vetorial de V .
Demonstração. Seja W := hAi e sejam w1 , w2 ∈ W e λ1 , λ2 ∈ K. Temos que:
w1 = µ1,1 a1 + · · · + µ1,k ak w2 = µ2,1 b1 + · · · + µ2,h bh ,
sendo a1 , . . . , ak , b1 , . . . , bh ∈ A. Podemos unir em um único conjunto os vetores
ai e bj , chamando-os de c1 , . . . , cn . Ademais, podemos pensar que w1 e w2 sejam
36 1. ESPAÇOS VETORIAIS

combinação dos vetores c1 , . . . , cn , pois, se um deles não aparecer na combinação


correspondente, colocamos 0 como coeficiente. Afinal:
w1 = µ1,1 c1 + · · · + µ1,n cn w2 = µ2,1 c1 + · · · + µ2,n cn .
Logo:
λ1 w1 + λ2 w2 = (λ1 µ1,1 + λ2 µ2,1 )c1 + · · · + (λ1 µ1,n + λ2 µ2,n )cn ∈ W. 
Definição 1.4.7. O subespaço hAi é dito subespaço vetorial gerado pela famı́lia
A. O conjunto A é dito famı́lia de geradores de hAi. ♦
Lema 1.4.8. Seja V := {Vi }i∈I a famı́lia dos subespaços vetoriais
T de V tais que
A ⊂ Vi . Existe i0 ∈ I tal que Vi0 = hAi. Além disso, Vi0 = i∈I Vi , logo Vi0 é o
mı́nimo (em relação à inclusão) da famı́lia V.
Demonstração. Análoga à do lema 1.4.4. 

1.4.3. Espaços vetoriais finitamente gerados. Dado um subconjunto A ⊂


V , acabamos de mostrar que hAi é um subespaço vetorial de V . Em particular,
pode acontecer que hAi = V . Nesse caso, conforme a definição 1.4.7, dizemos que
V é gerado por A. Equivalentemente, o subconjunto A é dito famı́lia de geradores
de V .2 Agora podemos formular a seguinte pergunta, que parece séria, mas que de
fato é trivial.
• Pergunta trivial: Dado um espaço vetorial V , existe uma famı́lia A ⊂ V
de geradores de V ?
A resposta é positiva, pois hV i = V , ou seja, o espaço todo é uma famı́lia de
geradores de si mesmo. De fato, é claro que hV i ⊂ V , pois uma combinação linear
de vetores de V pertence a V por definição. Reciprocamente, seja v ∈ V . Então
v é combinação linear de si mesmo, logo v ∈ hvi ⊂ hV i, portanto V ⊂ hV i. Isso
demonstra que hV i = V . Agora vamos formular uma pergunta bem mais séria.
• Pergunta séria: Dado um espaço vetorial V , existe uma famı́lia finita
{v 1 , . . . , v k } de geradores de V ?
Nesse caso a resposta nem sempre é positiva, como mostraremos daqui a pouco.
Por isso, o fato de admitir uma famı́lia finita de geradores é um propriedade muito
significativa de alguns espaços vetoriais, que merecem um nome especı́fico.
Definição 1.4.9. Um espaço vetorial é dito finitamente gerado se admite uma
famı́lia finita de geradores. ♦
Com a convenção {0} = h∅i, também {0} é finitamente gerado, pois é gerado
por um conjunto de 0 elementos.
Exemplo 1.4.10. Kn é finitamente gerado, pois Kn = h(1, 0, . . . , 0), (0, 1, . . . , 0), . . . ,
(0, 0, . . . , 1)i. ♦
2Por
definição, qualquer subconjunto A é uma famı́lia de geradores de hAi, mas nem sempre
de V todo.
1.4. GERADORES 37

Exemplo 1.4.11. Seja Eij a matriz (dita elementar) tal que a entrada (i, j) é igual
a 1 e as demais são iguais a 0. O leitor pode verificar que o espaço vetorial M (n, m; K)
é gerado pelas matrizes elementares Eij , sendo i ∈ {1, . . . , n} e j ∈ {1, . . . , m}, logo é
finitamente gerado. ♦
Exemplo 1.4.12. O espaço K[x] não é finitamente gerado. De fato, seja por absurdo
{p1 (x), . . . , pk (x)} uma famı́lia finita de geradores. Seja di o grau de pi (x) e seja d o máximo
entre {d1 , . . . , dk }. Qualquer combinação linear de {p1 , . . . , pk } tem grau menor ou igual
a d, portanto hp1 , . . . , pk i não pode esgotar o espaço todo. Um conjunto (necessariamente
infinito) de geradores de K[x] é {1, x, x2 , . . .}, isto é, {xi }i∈N . ♦
Exemplo 1.4.13. O espaço das funções contı́nuas de R a R não é finitamente gerado.
De fato, seja por absurdo {f1 (x), . . . , fk (x)} uma famı́lia finita de geradores. Fixemos k +1
pontos distintos x1 , . . . , xk+1 ∈ R e consideremos os vetores v 1 = (f1 (x1 ), . . . , f1 (xk+1 )),
. . . , v k = (fk (x1 ), . . . , fk (xk+1 )). Trata-se de k vetores de Rk+1 , portanto existe um vetor
v = (y1 , . . . , yk+1 ) ∈ Rk+1 que não é combinação linear de {v 1 , . . . , v k }. Seja f : R → R
uma função contı́nua tal que f (xi ) = yi . Se f fosse combinação linear de f1 , . . . , fk , então
v seria combinação linear de {v 1 , . . . , v k }, o que é absurdo. A mesma demonstração vale
para o espaço de todas as funções de R a R, para o espaço das funções diferenciáveis, duas
vezes diferenciáveis e assim em diante. ♦
Exemplo 1.4.14. O espaço vetorial das sequências com entradas em K não é finita-
mente gerado. De fato, seja por absurdo {(a1,i ), . . . , (ak,i )} uma famı́lia finita de geradores.
Consideremos os vetores v 1 = (a1,1 , . . . , a1,k+1 ), . . . , v k = (ak,1 , . . . , ak,k+1 ). Trata-se de k
vetores de Kk+1 , portanto existe um vetor v = (b1 , . . . , bk+1 ) ∈ Kk+1 que não é combinação
linear de {v 1 , . . . , v k }. Consideremos a sequência (b1 , . . . , bk+1 , 0, 0, . . .). Se (bi ) fosse com-
binação linear de {(a1,i ), . . . , (ak,i )}, então v seria combinação linear de {v 1 , . . . , v k }, o que
é absurdo. ♦
Veremos no próximo capı́tulo que os espaços vetoriais finitamente gerados são
os que “se parecem” com Kn , conforme os comentários que fizemos no começo deste
capı́tulo, pois todo elemento deles pode ser identificado com uma n-upla de elemen-
tos de K. Pelo contrário, os espaços não finitamente gerados são intrinsecamente
diferentes de Kn para qualquer n.
1.4.4. Exercı́cios.
1.11. Seja V ⊂ C3 o subespaço vetorial definido por V = {(x, y, z) : ix − y + (2 − i)z =
0}. Encontre uma famı́lia de geradores de V formada por 5 elementos distintos.
1.12. Seja V ⊂ C 0 (R) o subespaço vetorial gerado pela famı́lia {f, g, h}, sendo f (x) =
3x, g(x) = sin(x) e h(x) = e−x . Encontre uma famı́lia A de geradores de V formada por
6 elementos distintos, tal que nenhum elemento de A seja um múltiplo de f , g ou h.
1.13. Seja A ⊂ C 0 (R) a famı́lia A := {fn (x), gn (x)}n∈N , sendo fn (x) = sin(nx) e
gn (x) = cos(nx). Demonstre que A não gera C 0 (R).
1.14. (*) Considere o espaço vetorial Z37 , sobre o corpo Z7 . Demonstre que a famı́lia
A = {(1, 2, 3), (−1, −2, −1), (3, −1, 0)} não gera Z37 .
1.15. (*) Considere o espaço vetorial Z35 , sobre o corpo Z5 . Demonstre que a famı́lia
A = {(1, 1, −1), (1, 1, 1), (3, 1, −1)} gera Z35 .
38 1. ESPAÇOS VETORIAIS

1.5. Independência linear


Definição 1.5.1. Uma famı́lia de vetores {v 1 , . . . , v k } ⊂ V é dita linearmente
independente se se a única k-upla (λ1 , . . . , λk ) de elementos de K que verifica a
identidade
(5) λ1 v 1 + · · · + λk v k = 0
é a k-upla (λ1 , . . . , λk ) = (0, . . . , 0). Em caso contrário, a famı́lia é dita linearmente
dependente. ♦
Isso significa que uma famı́lia {v 1 , . . . , v k } é independente se, e somente se, o
único modo de escrever 0 como combinação linear de {v 1 , . . . , v k } consiste em esco-
lher coeficientes todos nulos. Pelo contrário, a famı́lia é dependente se existe uma
combinação linear de {v 1 , . . . , v k }, com coeficientes não todos nulos, igual ao vetor
nulo.
Exercı́cio 1.5.2. Estabeleça para quais valores do parâmetro k ∈ R a famı́lia formada
pelos seguintes polinômios é linearmente independente:
x3 + 2x2 + kx + 3 kx2 + x + 1 x3 + 2x2 + x + 3.
Resolução. Considerando como são definidas a soma e o produto externo no espaço
dos polinômios, temos que verificar se o único modo de escrever (0, 0, 0, 0) como combinação
linear de (1, 2, k, 3), (0, k, 1, 1) e (1, 2, 1, 3) consiste em escolher coeficientes todos nulos.
Portanto, o seguinte sistema homogêneo deve ter uma solução (a nula):
   
1 0 1 0 1 0 1 0
2 k 2 II → II − 2I 
 0 III → III − kI 0 k 0 0 , II ↔ IV
k 1 1 0 0 1 1 − k 0
IV → IV − 3I
3 1 3 0 0 1 0 0
   
1 0 1 0 1 0 1 0
 III → III − II 0 1
0 1 0 0  0 0
 .
0 1 1 − k 0 IV → IV − kII 0 0 1 − k 0
0 k 0 0 0 0 0 0
Logo, a famı́lia dada é independente se, e somente se, k 6= 1. ♦

Exercı́cio 1.5.3. Estabeleça para quais valores do parâmetro k ∈ R a famı́lia formada


pelas seguintes matrizes com entradas reais é linearmente independente:
     
1 0 −1 1 −1 k + 1
.
k 2 2 1 5 4
Resolução. Considerando como são definidas a soma e o produto externo no espaço
das matrizes 2x2, temos que verificar se o único modo de escrever (0, 0, 0, 0) como com-
binação linear de (1, 0, k, 2), (−1, 1, 2, 1) e (−1, k + 1, 5, 4) consiste em escolher coeficientes
todos nulos. Portanto, o seguinte sistema homogêneo deve ter uma solução (a nula):
   
1 −1 −1 0 1 −1 −1 0
IV → 13 IV
 III → III − kI 0
0 1 k + 1 0  1 k+1 0
  (II, III, IV ) →
k 2 5 0 IV → IV − 2I 0 2 + k 5 + k 0
(IV, II, III)
2 1 4 0 0 3 6 0
1.5. INDEPENDÊNCIA LINEAR 39

   
1 −1 −1 0 1 −1 −1 0
0
 1 2 0 III → III − II

0 1
 2 0
.
0 1 k+1 0 IV → IV − (2 − k)II 0 0 k − 1 0
0 2+k 5+k 0 0 0 1−k 0
Logo, a famı́lia dada é independente se, e somente se, k 6= 1. ♦

Exercı́cio 1.5.4. Seja V o espaço vetorial das funções contı́nuas de (0, +∞) a R.
Estabeleça se a famı́lia formada pelas seguintes funções é linearmente independente:
1
f1 (x) = f2 (x) = x + 1 f3 (x) = x2 + 1.
x
Resolução. Neste caso é mais adequada uma técnica especı́fica. Suponhamos que
αf1 (x) + βf2 (x) + γf3 (x) = 0, com α, β, γ ∈ R. Se α 6= 0, então limx→0+ [αf1 (x) + βf2 (x) +
γf3 (x)] = ±∞, enquanto limx→0+ 0 = 0. Portanto α = 0. Agora é fácil provar que os
polinômios f2 (x) e f3 (x) são independentes, usando a mesma técnica do exemplo 1.5.2,
logo β = γ = 0, portanto {f1 , f2 , f3 } é independente. ♦

1.5.1. Propriedades fundamentais. Agora vamos estudar as propriedades


fundamentais das famı́lias independentes e dependentes.
Lema 1.5.5. Valem as seguintes propriedades.
(1) Uma famı́lia de um elemento {v} é linearmente independente se, e somente
se, v 6= 0.
(2) Uma famı́lia de vetores A = {v 1 , . . . , v k }, com k ≥ 2, é linearmente depen-
dente se, e somente se, existe i ∈ {1, . . . , k} tal que v i é combinação linear
de A \ {v i }.
(3) Se uma famı́lia de vetores contiver o vetor 0, então é linearmente depen-
dente.
(4) Se uma subfamı́lia de uma famı́lia dada é dependente, a famı́lia toda é
dependente.
(5) Uma subfamı́lia não vazia de uma famı́lia independente é independente.
(6) Seja {v 1 , . . . , v k } uma famı́lia independente e seja v k+1 ∈ V um vetor que
não é combinação linear de {v 1 , . . . , v k }. Então {v 1 , . . . , v k , v k+1 } é inde-
pendente.
(7) Uma famı́lia A = {v 1 , . . . , v k } é independente se, e somente se, para todo
v ∈ hv 1 , . . . , v k i, os coeficientes λ1 , . . . , λk ∈ K, tais que v = λ1 v 1 + · · · +
λk v k , são únicos.
Demonstração. (1) Se v 6= 0 e λv = 0, então λ = 0 pelo lema 1.1.8 item 15,
logo {v} é independente. Reciprocamente, 1 · 0 = 0 e 1 6= 0, logo {0} é dependente.
(2) Se {v 1 , . . . , v k }, com k ≥ 2, for dependente, então é possı́vel escolher λ1 , . . . , λk
não todos nulos, tais que λ1 v 1 + · · · + λk v k = 0. A menos da ordem, podemos
supor λ1 6= 0. Então v 1 = − λλ21 v 2 − · · · − λλk1 v k , portanto v 1 é combinação linear dos
demais. Reciprocamente, a menos da ordem, seja v 1 = λ2 v 2 + · · · + λk v k . Então
v 1 − λ2 v 2 − · · · − λk v k = 0 e os coeficientes não são todos nulos, pois o de v 1 é 1.
(3) Seja {0, v 2 , . . . , v k } uma famı́lia de vetores. Então 1 · 0 + 0v 2 + · · · + 0v k = 0 e
os coeficientes não são todos nulos, pois o de 0 é 1. (4) Seja A = {v 1 , . . . , v k } e, a
40 1. ESPAÇOS VETORIAIS

menos da ordem, consideremos a subfamı́lia B = {v 1 , . . . , v h }, com 1 ≤ h ≤ k. Se B


for dependente, existem λ1 , . . . , λh , não todos nulos, tais que λ1 v 1 + · · · + λh v h = 0.
Então λ1 v 1 + · · · + λh v h + 0v h+1 + · · · + 0v k = 0 e os coeficientes não são todos
nulos. (5) Equivalente a (4). (6) Seja λ1 v 1 + · · · + λk v k + λk+1 v k+1 = 0. Se
os coeficientes não fossem todos nulos, então λk+1 6= 0, pois, em caso contrário,
{v 1 , . . . , v k } seria dependente. Por isso, v k+1 seria combinação linear de v 1 , . . . , v k .
(7) Seja A independente e seja v = λ1 v 1 + · · · + λk v k = µ1 v 1 + · · · + µk v k . Então
(λ1 − µ1 )v 1 + · · · + (λk − µk )v k = 0, logo λi = µi para todo i. Reciprocamente, se
os coeficientes forem únicos, seja λ1 v 1 + · · · + λk v k = 0. Então λ1 v 1 + · · · + λk v k =
0v 1 + · · · + 0v k , portanto, pela unicidade, λi = 0 para todo i. 

1.5.2. Famı́lias infinitas. Podemos facilmente estender a definição de inde-


pendência linear a uma famı́lia genérica de vetores, não necessariamente finita.
Definição 1.5.6. Um subconjunto não vazio A ⊂ V é dito linearmente inde-
pendente se qualquer subconjunto finito não vazio de A é linearmente independente
conforme a definição 1.5.6. ♦
Observamos que, para A finito, a definição 1.5.6 é coerente com a definição
1.5.1. De fato, suponhamos que A seja independente conforme a definição 1.5.1.
Então, pelo lema 1.5.5 item 5, qualquer subfamı́lia não vazia (necessariamente finita)
é independente, portanto A é independente também conforme a definição 1.5.6.
Reciprocamente, seja A independente conforme a definição 1.5.6. Como A é uma
subfamı́lia finita de si mesma, então, por definição, é independente também conforme
a definição 1.5.1. Na verdade, não precisaremos da definição 1.5.6 nos próximos
capı́tulos. Só a acrescentamos para completar a exposição.

1.5.3. Exercı́cios.
1.16. Estabeleça para quais valores do parâmetro k ∈ C os seguintes polinômios for-
mam uma famı́lia independente em C[x]:
x3 + kx2 + x + i (1 − i)x2 + ix + k kx3 + (3 − i)x2 + (2i − 1)x.
1.17. Estabeleça para quais valores do parâmetro k ∈ C as seguintes matrizes formam
uma famı́lia independente em M (2; C):
       
1 0 k i 0 1 −2 1
.
0 k 1 0 i 2i −1 i − 1

1.18. Verifique que a famı́lia {f, g, h} é linearmente independente em C 0 (R), sendo:


f (x) = e2x g(x) = −x − 1 h(x) = cos(x).
1 1 1
   
1.19. Verifique que a famı́lia n , n2 , n3 é linearmente independente em SeqQ .
1.20. (*) Estabeleça para quais valores do parâmetro k ∈ Z3 os seguintes polinômios
formam uma famı́lia independente em Z3 [x]:
x3 + kx kx3 + 2x2 − 2x + 1 x3 + x2 − x + 2.
1.6. BASES E DIMENSÃO 41

1.6. Bases e dimensão


No vol. I definimos a noção de base de um subespaço vetorial de Rn e, a partir
disso, introduzimos o conceito de dimensão. Contudo, os resultados principais foram
somente enunciados, sem demonstração. Agora vamos repetir estas definições, em
relação a qualquer espaço vetorial, demonstrando em detalhe todas as afirmações
que faremos ao respeito.
Definição 1.6.1. Um subconjunto não vazio de V é dito base de V se for uma
famı́lia de geradores de V independente. ♦
Logo, A ⊂ V é uma base de V se, e somente se, valem duas condições:
• V = hAi;
• A é uma famı́lia independente.
É claro que qualquer famı́lia independente em V é uma base do subespaço que gera
(isto é, toda famı́la independente A é uma base de hAi), mas pode não ser uma base
do espaço V todo.
Lema 1.6.2. Seja V 6= {0} e seja A = {v 1 , . . . , v k } uma famı́lia finita de gera-
dores de V . Então existe uma subfamı́lia de A que é uma base de V .
Demonstração. Provemos a tese por indução sobre k, ou seja, sobre o número
de elementos da famı́lia dada. Se k = 1, necessariamente v 1 6= 0, pois, se fosse nulo,
qualquer combinação linear de {v 1 } seria nula, enquanto V 6= {0}. Logo, pelo lema
1.5.5 item 1, A é uma base. Seja k ≥ 2. Se A for independente, então é uma
base. Em caso contrário, pelo lema 1.5.5 item 2, um dos vetores de A é combinação
dos demais. A menos da ordem, suponhamos que v k = λ1 v 1 + · · · + λk−1 v k−1 . Seja
v ∈ V . Como A é uma famı́lia de geradores, temos que v = µ1 v 1 +· · ·+µk v k = (µ1 +
µk λ1 )v 1 + · · · + (µk−1 + µk λk−1 )v k−1 . Isso mostra que também A0 = {v 1 , . . . , v k−1 } é
uma famı́lia de geradores, portanto, pela hipótese de indução, existe uma subfamı́lia
B ⊂ A0 (logo B ⊂ A) que é uma base de V . 
Corolário 1.6.3. Todo espaço vetorial finitamente gerado, diferente de {0},
admite uma base.
Demonstração. É suficiente escolher uma famı́lia finita de geradores {v 1 , . . . ,
v k } e aplicar o lema 1.6.2. 
Corolário 1.6.4. Sejam v 1 , . . . , v k ∈ V não todos nulos. Então existe uma
subfamı́lia independente {v i1 , . . . , v ih } de {v 1 , . . . , v k }, sendo 1 ≤ h ≤ k, tal que
hv i1 , . . . , v ih i = hv 1 , . . . , v k i.
Demonstração. É suficiente aplicar o lema 1.6.2 ao subespaço vetorial hv 1 , . . . ,
v k i e à famı́lia de geradores {v 1 , . . . , v k }. 
Graças ao corolário 1.6.4 podemos dar a seguinte definição.
Definição 1.6.5. Seja A = {v 1 , . . . , v k } ⊂ V uma famı́lia de vetores tal que
nem todo elemento de A é nulo. Uma subfamı́lia independente A0 = {v i1 , . . . , v ih }
de A, tal que hA0 i = hAi, é dita subfamı́lia maximal independente de A. ♦
42 1. ESPAÇOS VETORIAIS

A definição 1.6.5 é devida ao fato que uma subfamı́lia A0 de A, com a propriedade


descrita, é maximal entre as subfamı́lias independentes de A, ou seja, se A0 ⊂ B ⊂ A
e B for independente, então A0 = B. De fato, dado que hA0 i = hAi e hAi ⊂ hBi ⊂
hAi, necessariamente hA0 i = hBi. Se B for independente e A0 6= B, seja v ∈ B \ A0 .
A subfamı́lia A ∪ {v} de B é independente pelo item (5) do lema 1.5.5, logo v não
é combinação linear de A. Isso é absurdo, pois v ∈ hBi = hA0 i.
Lema 1.6.6. Seja A = {v 1 , . . . , v n } ⊂ V . A famı́lia A é uma base de V se, e
somente se, para cada v ∈ V , existem únicos λ1 , . . . , λn ∈ K tais que v = λ1 v 1 +
· · · + λn v n .
Demonstração. É consequência direta da definição de base e do lema 1.5.5
item 7. 
Exercı́cio 1.6.7. Seja M (n; K) o espaço vetorial das matrizes quadradas de ordem
n com entradas em K. Ache uma base do subespaço vetorial formado pelas matrizes
triangulares superiores.
Resolução. Seja Eij ∈ M (n; K) a matriz tal que a entrada (i, j) é igual a 1 e
todasPas demais são iguais a 0. Dada uma matriz A = [aij ] ∈ M (n; K), temos que
A = ni,j=1 aij Eij . Seja T (n; K) o subespaço vetorial formado pelas matrizes triangulares
superiores. A matriz A pertence
P a T (n; K) se, e somente se, aij = 0 para todo i > j,
portanto, neste caso, A = 1≤i≤j≤n aij Eij . Isso mostra que a famı́lia {Eij }1≤i≤j≤n gera
P
T (n; K). Mostremos que é independente, portanto é uma base. Seja Λ = 1≤i≤j≤n λij Eij ,
sendo λij ∈ K. Então a entrada (i, j) de Λ, para i ≤ j, é λij , logo, se Λ = 0, temos que
λij = 0 para todos i e j na soma. ♦

Exercı́cio 1.6.8. Seja K[x] o espaço vetorial dos polinômios com coeficientes em K
em uma variável. Ache uma base do subespaço vetorial K3 [x], formado pelos polinômios
de grau menor ou igual a 3.
Resolução. O genérico elemento de K3 [x] é da forma p(x) = a3 x3 + a2 x2 + a1 x + a0 ,
logo é combinação linear da famı́lia A = {x3 , x2 , x, 1}. Mostremos que A é independente,
portanto é uma base de K3 [x]. Seja p(x) = λ3 x3 + λ2 x2 + λ1 x + λ0 . Se p(x) = 0, por
definição todos os coeficientes de p(x) têm que ser nulos, logo λi = 0 para todo i entre 0
e 3. ♦

Exercı́cio 1.6.9. No espaço vetorial das funções contı́nuas de R \ {0} a R, conside-


remos a famı́lia A = {f1 , f2 , f3 , f4 }, sendo:
x2 + 1 2
f1 (x) = f2 (x) = e3x f3 (x) = − f4 (x) = 5x − e3x .
x x
Ache uma subfamı́lia maximal independente de A.
Resolução. Observamos que f1 (x) = x + x1 , portanto f1 = 15 f4 − 12 f3 + 51 f2 . Por isso,
hf1 , f2 , f3 , f4 i = hf2 , f3 , f4 i. Vamos demostrar que {f2 , f3 , f4 } é independente, portanto é
uma subfamı́lia maximal independente de {f1 , f2 , f3 , f4 }. Seja λ2 f2 + λ3 f3 + λ4 f4 = 0. Se
λ3 6= 0, temos que limx→0 (λ2 f2 + λ3 f3 + λ4 f4 ) = ∞, portanto a combinação não pode ser
nula. Isso demonstra que λ3 = 0, portanto fica a combinação (λ2 − λ4 )e3x + 5λ4 x = 0.
Avaliando em x = 0, temos que λ2 − λ4 = 0, portanto 5λ4 x = 0. Avaliando em x = 1
obtemos λ4 = 0, portanto λ2 = 0. ♦
1.6. BASES E DIMENSÃO 43

1.6.1. Teorema da base incompleta. Com os lemas precedentes vimos al-


gumas propriedades fundamentais das bases. Em particular, graças ao corolário
1.6.3, conseguimos provar que todo espaço vetorial finitamente gerado e diferente de
{0} admite uma base. Agora devemos provar que todas as bases contêm o mesmo
número de elementos. Para isso, precisamos do seguinte teorema.
Teorema 1.6.10 (Teorema da base incompleta de Kronecker). Sejam A =
{a1 , . . . , an } uma base de V e B = {v 1 , . . . , v k } ⊂ V uma famı́lia independente,
com 1 ≤ k ≤ n. Então é possı́vel escolher uma subfamı́lia A0 ⊂ A, que contém n − k
vetores, tal que B ∪ A0 é uma base de V .
Demonstração. Fixado n, demonstremos a tese por indução sobre k.
Passo I . Seja k = 1, ou seja, B = {v 1 }. Como A é uma base, temos que v 1 =
λ1 a1 + · · · + λn an . Como v 1 6= 0, pois B é independente, os coeficientes λi não
podem ser todos nulos. Seja, a menos da ordem, λ1 6= 0. Então:
1 λ2 λn
a1 = λ1
v − a
λ1 2
− ··· − a .
λ1 n

Seja v ∈ V . Então:
µ1
+ µ2 − µ1 λλ21 a2 + · · · + µn − µ1 λλn1 an .
 
v = µ 1 a1 + · · · + µ n an = λ1
v
Isso mostra que C = {v 1 , a2 , . . . , an } é uma famı́lia de geradores de V . Mostremos
que é independente, portanto é uma base. Seja µ1 v 1 + µ2 a2 + · · · + µn an = 0. Então:
µ1 λ1 a1 + (µ1 λ2 + µ2 )a2 + · · · + (µ1 λn + µn )an = 0.
Sendo A uma base, os coeficientes são nulos. Como λ1 6= 0 por hipótese, temos que
µ1 = 0, logo µ2 = · · · = µn = 0.
Passo II . Seja 2 ≤ k ≤ n. Pela hipótese de indução, a menos da ordem podemos
supor que {v 1 , . . . , v k−1 , ak , . . . , an } seja uma base. Portanto:
v k = λ1 v 1 + · · · + λk−1 v k−1 + λk ak + · · · + λn an .
Como B é independente, os coeficientes λk , . . . , λn não são todos nulos, se não v k seria
combinação linear de v 1 , . . . , v k−1 . A menos da ordem, seja λk 6= 0. Atuando como
no passo I, podemos substituir ak com v k e obtemos a base {v 1 , . . . , v k , ak+1 , . . . , an }
de V . 
Exercı́cio 1.6.11. Complete os vetores {(1, 1, −1, 0), (0, 2, 1, 1)} a uma base de R4
escolhendo os demais vetores entre os da base:
A = {(1, 1, 0, 0), (1, −1, 0, 0), (1, 1, 1, 0), (0, 0, 0, 1)}.
Resolução. Comecemos pelo vetor v 1 = (1, 1, −1, 0). Conforme o passo I do teorema
1.6.10, temos que escrever v 1 como combinação linear dos vetores de A e selecionar um
coeficiente não nulo. Temos:
(1, 1, −1, 0) = α(1, 1, 0, 0) + β(1, −1, 0, 0) + γ(1, 1, 1, 0) + δ(0, 0, 0, 1).
Pela quarta componente temos δ = 0, pela terceira temos γ = −1. Como γ 6= 0, podemos
substituir v 1 ao terceiro vetor de A. Obtemos a base:
A0 = {(1, 1, 0, 0), (1, −1, 0, 0), (1, 1, −1, 0), (0, 0, 0, 1)}.
44 1. ESPAÇOS VETORIAIS

Agora, conforme o passo II do teorema 1.6.10, temos que escrever v 2 = (0, 2, 1, 1) como
combinação linear dos vetores de A0 e selecionar um coeficiente não nulo, que não pode
ser o coeficiente de v 1 . Temos:
(0, 2, 1, 1) = α(1, 1, 0, 0) + β(1, −1, 0, 0) + γ(1, 1, −1, 0) + δ(0, 0, 0, 1).
Pela quarta componente temos δ = 1, logo podemos substituir v 2 ao quarto vetor de A0 .
Afinal obtemos a base:
A00 = {(1, 1, 0, 0), (1, −1, 0, 0), (1, 1, −1, 0), (0, 2, 1, 1)}.

É claro que, escolhendo outros coeficientes não nulos, obterı́amos outra base. ♦

O teorema da base incompleta parece um resultado técnico, mas é a chave para


deduzir as propriedades fundamentais das bases de um espaço vetorial, que agora
vamos enunciar.
Teorema 1.6.12. Seja A = {a1 , . . . , an } uma base de V e seja B = {v 1 , . . . , v k } ⊂
V uma famı́lia qualquer.
(1) Se k < n, então B não gera V , ou seja, hv 1 , . . . , v k i ( V .
(2) Se k = n e B é independente, então B é uma base.
(3) Se k = n e B gera V , então B é uma base.
(4) Se k > n, então B é dependente.
Demonstração. (1) Seja k < n. Pelo corolário 1.6.4, podemos supor que B
seja independente. Então, pelo teorema 1.6.10, podemos completar B a uma base
B 0 = hv 1 , . . . , v k , ak+1 , . . . , an i, a menos da ordem dos vetores. Como B 0 é inde-
pendente, os vetores ak+1 , . . . , an não podem ser combinação linear de {v 1 , . . . , v k },
logo hv 1 , . . . , v k i ( V . (2) Trata-se de um caso particular do teorema 1.6.10, para
k = n. (3) Pelo lema 1.6.2, existe uma subfamı́lia B 0 ⊂ B que é uma base de V . Se
B fosse dependente, então B 0 conteria menos elementos que B, logo conteria menos
que n elementos, o que é absurdo pelo item 1. (4) Seja por absurdo B indepen-
dente. Então, pelo item 2, a subfamı́lia {v 1 , . . . , v n } seria uma base, logo os vetores
v n+1 , . . . , v k seriam combinação linear dos precedentes, absurdo. 

1.6.2. Teorema da base e dimensão. Graças aos resultados precedentes,


podemos provar facilmente o seguinte teorema, fundamental na teoria dos espaços
vetoriais.
Teorema 1.6.13 (Teorema da base). Seja V um espaço vetorial finitamente
gerado e diferente de {0}. Então todas as bases de V contêm o mesmo número de
elementos.
Demonstração. Pelo corolário 1.6.3 existe uma base de V . Fixemos uma base
A = {v 1 , . . . , v n } e consideremos outra base B = {v 1 , . . . , v m }. Se m < n, pelo
teorema 1.6.12 item 1, B não pode gerar V , o que é absurdo. Se m > n, pelo
teorema 1.6.12 item 3, B é dependente, o que é absurdo. Logo, m = n. Isso mostra
que todas as bases de V contêm n elementos. 
1.6. BASES E DIMENSÃO 45

O teorema da base pode ser formulado equivalentemente afirmando que o número


de elementos de uma base é uma propriedade intrı́nseca de um espaço vetorial, que
não depende da base escolhida. Por isso, podemos dar a seguinte definição.
Definição 1.6.14. Seja V um espaço vetorial finitamente gerado. Se V 6= {0},
a dimensão de V , que denotamos por dim V , é o número de elementos de uma base
de V . Estabelecemos por convenção que dim{0} = 0. ♦
Observação 1.6.15. dim Kn = n. De fato, uma base de Kn é {(1, 0, . . . , 0),
(0, 1, . . . , 0), (0, 0, . . . , 1)}, dita base canônica. ♦
É natural pensar que a dimensão de um subespaço de V seja menor ou igual à
de V . Agora vamos demonstrar este fato. Antes de tudo, precisamos mostrar que
um subespaço vetorial de um espaço finitamente gerado é finitamente gerado.
Lema 1.6.16. Seja V um espaço vetorial não finitamente gerado. Então, para
todo n ∈ N, existe uma subfamı́lia independente de n vetores.
Demonstração. Provemos a tese por indução sobre n. Se n = 1, obviamente
existe um vetor não nulo, se não V seria igual a {0}, portanto seria finitamente
gerado. Se {v 1 , . . . , v n−1 } for uma famı́lia independente, como V não é finitamente
gerado, necessariamente hv 1 , . . . , v n−1 i ( V , portanto existe um vetor v n que não
é combinação linear de {v 1 , . . . , v n−1 }. Pelo lema 1.5.5 item 6, {v 1 , . . . , v n } é uma
famı́lia independente. 
Teorema 1.6.17. Sejam V finitamente gerado e W ⊂ V um subespaço vetorial.
Então W é finitamente gerado e dim W ≤ dim V . Em particular, dim W = dim V
se, e somente se, W = V .
Demonstração. Seja por absurdo W não finitamente gerado e seja dim V = n.
Pelo lema 1.6.16, existe uma subfamı́lia independente de W de n + 1 vetores, a qual
é em particular uma subfamı́lia de V . Isso é absurdo pelo teorema 1.6.12 item 4.
Sejam k = dim W e A = {w1 , . . . , wk } uma base de W . Em particular, A é uma
famı́lia independente de V , logo, pelo teorema 1.6.12 item 4, temos k ≤ n, ou seja,
dim W ≤ dim V . Enfim, se k = n, então A é base de V pelo teorema 1.6.12 item 2,
logo W = V . 
Observação 1.6.18. Os resultados principais desta seção foram enunciados so-
mente para espaços vetoriais finitamente gerados. Na verdade, podem ser generali-
zados a qualquer espaço vetorial, mas se trata de um tópico que normalmente não
é discutido em um curso de álgebra linear. ♦
1.6.3. Exercı́cios.
1.21. Para cada uma das seguintes famı́lias, estabeleça para quais valores do parâmetro
k ∈ C é uma base de C3 :
• {(1, 1, 0), (ik, k, i + 2)};
• {(1, 1, i), (1, 1, −i), (k, k, ik), (k, k, 0)};
• {(i, k, 0), (1, 1 − i, 1), (k, 2, 1 + i)}.
46 1. ESPAÇOS VETORIAIS

1.22. Complete a famı́lia {A1 , A2 }, sendo


   
0 i 0 i
A1 = A2 = ,
0 2i 0 2i + 1
a uma base de M (2; C), escolhendo os elementos que faltam entre os da base {E11 , E12 , E21 ,
E22 } (v. exemplo 1.6.7).
1.23. (∗) Para cada uma das seguintes famı́lias, estabeleça para quais valores do
parâmetro k ∈ Z3 é uma base de Z33 :
• {(1, 1, 1), (k, k, −1)};
• {(k, 0, 1), (1, 2, k), (2, 1, 2)};
• {(1, 1, 1), (1, 1, −1), (1, −1, −1), (−1, −1, −1, k)}.
1.24. Encontre uma subfamı́lia maximal independente de {f1 , f2 , f3 , f4 , f5 } ⊂ C 0 (R),
sendo:
f1 = x + 1; f2 (x) = ex ; f3 (x) = ex − 2e−x ; f4 (x) = e−x ; f5 (x) = 2x + ex + 2.
1.25. (∗) Encontre uma subfamı́lia maximal independente de A = {(1, 0, 0, 1), (1, −1,
0, −1), (0, 2, 0, 4), (1, 2, 0, 0)} ⊂ Z45 .

1.7. Subespaços afins


Vimos no vol. I (seção 2.10) que um subespaço afim é um subespaço vetorial
transladado, de modo que não passe necessariamente pela origem. Geometrica-
mente, um subespaço afim A é descrito pelas somas entre um elemento fixado de
A é o genérico elemento de um subespaço vetorial W , dito “subespaço direção” de
A. Vamos repetir brevemente a definição e as propriedades fundamentais dos su-
bespaços afins, no contexto mais abrangente dos espaços vetoriais sobre um corpo
K genérico.
Notação 1.7.1. Sejam X, Y ⊂ V dois subconjuntos e seja v 0 ∈ V . Usamos a
seguinte notação:
v 0 + X = {v ∈ V : ∃x ∈ X : v = v 0 + x}
X − v 0 = {v ∈ V : ∃x ∈ X : v = x − v 0 }
X + Y = {v ∈ V : ∃x ∈ X, y ∈ Y : v = x + y}
X − Y = {v ∈ V : ∃x ∈ X, y ∈ Y : v = x − y}. ♦
Definição 1.7.2. Um subconjunto A ⊂ V é dito subespaço afim se existem um
subespaço vetorial W ⊂ V e um vetor v 0 ∈ V tais que:
(6) A = v 0 + W.
O espaço vetorial W é dito subespaço direção de A e a dimensão de A é definida
como a dimensão de W . ♦
Observação 1.7.3. É claro que, se vale (6), então v 0 ∈ A, pois v 0 = v 0 + 0 e,
sendo W um subespaço vetorial, 0 ∈ W . ♦
1.7. SUBESPAÇOS AFINS 47

1.7.1. Propriedades principais. Vamos mostrar que, se a identidade (6) valer


para v 0 ∈ A fixado, então A = v 1 + W para qualquer outro vetor v 1 ∈ A.
Lema 1.7.4. Seja A = v 0 + W um subespaço afim de V . Então A = v 1 + W para
todo v 1 ∈ A.
Demonstração. Como v 1 ∈ A, existe w0 ∈ W tal que v 1 = v 0 + w0 . Seja
v ∈ v 1 + W . Então existe w ∈ W tal que v = v 1 + w, logo v = v 0 + (v 1 − v 0 + w) =
v 0 + (w + w0 ) ∈ v 0 + W . Isso demonstra que v 1 + W ⊂ v 0 + W . Reciprocamente, seja
v ∈ v 0 + W . Então existe w ∈ W tal que v = v 0 + w, logo v = v 1 + (v 0 − v 1 + w) =
v 1 + (w − w0 ) ∈ v 1 + W . Isso demonstra que v 0 + W ⊂ v 1 + W , portanto vale a
igualdade. 
Observação 1.7.5. O lema 1.7.4 é muito importante pelo seguinte motivo.
Seja A ⊂ V um subconjunto. Para verificar se A é um subespaço afim, é suficiente
verificar se A − v 0 é um subespaço vetorial para um vetor v 0 ∈ A fixado. De fato,
se A − v 0 for um subespaço vetorial W , então A = v 0 + W é afim por definição.
Reciprocamente, se A − v 0 não for um subespaço vetorial, então nem A − v 1 o será
para nenhum outro vetor v 1 ∈ A, portanto A não pode satisfazer a definição 1.7.2,
logo não é afim. ♦
Observação 1.7.6. Um subespaço vetorial W ⊂ V é um subespaço afim, sendo
W = 0 + W . Um subespaço afim A ⊂ V é um subespaço vetorial se, e somente se,
0 ∈ A. De fato, se 0 ∈ A = v 0 + W , pelo lema 1.7.10 temos que A = 0 + W = W . ♦
O lema 1.7.4 mostra que, na identidade (6), o ponto marcado v 0 pode ser esco-
lhido arbitrariamente em A. O seguinte lema mostra que, ao contrário, o subespaço
direção fica univocamente determinado por A.
Lema 1.7.7. Seja A = v 0 + W um subespaço afim de V . Temos que:
W = A − A.
Por isso, se A = v 0 + W e, ao mesmo tempo, A = v 1 + W 0 , então W = A − A e
W 0 = A − A, logo W = W 0 .
Demonstração. Seja w ∈ W . Então w = (v 0 +w)−(v 0 +0) ∈ A−A, portanto
W ⊂ A − A. Reciprocamente seja v ∈ A − A. Então existem a1 , a2 ∈ A tais que
v = a1 − a2 . Por definição, existem w1 , w2 ∈ W tais que a1 = v 0 + w1 e a2 = v 0 + w2 ,
logo v = (v 0 + w1 ) − (v 0 + w2 ) = w1 − w2 ∈ W , logo A − A ⊂ W . 
Exercı́cio 1.7.8. Seja V o espaço vetorial das funções contı́nuas de R a R (v. exemplo
1.1.6). Seja A ⊂ V o subconjunto formado pelas funções tais que f (1) = 5. Mostre que A
é um subespaço afim.
Resolução. Seja W o subconjunto formado pelas funções tais que f (1) = 0 e con-
sideremos a função constante c5 ∈ A. Temos que A = c5 + W . De fato, se f ∈ A, então
f (1) − c5 (1) = 5 − 5 = 0, logo f − c5 ∈ W . Reciprocamente, se f − c5 ∈ W , então
f (1) − c5 (1) = 0, logo f (1) = 5 e f ∈ A. O leitor pode verificar que W é um subespaço
vetorial, portanto A é afim. ♦
48 1. ESPAÇOS VETORIAIS

Exercı́cio 1.7.9. Seja V o espaço vetorial das sequências reais (v. exemplo 1.1.7).
Seja A o subconjunto formado pelas sequências (an ) tais que existe n ∈ N tal que an = 0.
Mostre que A não é um subespaço afim (em particular, não é um subespaço vetorial).
Resolução. Como 0 = (0, 0, 0, 0, . . .) ∈ A, se A fosse um subespaço afim, seria
vetorial. Temos que (1, 0, 1, 1, . . .) ∈ A e (0, 1, 0, 0, . . .) ∈ A, mas a soma é igual a
(1, 1, 1, 1, . . .) ∈
/ A. Portanto A não é vetorial, logo nem afim. ♦

O seguinte lema sugere como verificar quando dois subespaços afins coincidem.
Lema 1.7.10. Sejam A = v 0 + W e A0 = v 00 + W 0 dois subespaços afins de V .
As seguintes condições são equivalentes:
(1) A = A0 ;
(2) W = W 0 e v 00 ∈ A;
(3) W = W 0 e v 0 ∈ A0 .
Demonstração. (1) ⇒ (2). Seja A = v 0 + W = v 00 + W 0 . Então, pelo lema
1.7.7, temos que W = W 0 = A − A. Ademais, é óbvio que v 00 ∈ A. (2) ⇒ (1). Temos
que v 00 = v 0 + w0 , com w0 ∈ W . Portanto, v 00 + W = {v 0 + (w0 + w) : w ∈ W } ⊂
v 0 + W . Analogamente, v 0 + W = {v 00 + (−w0 + w) : w ∈ W } ⊂ v 00 + W . Logo,
v 0 + W = v 00 + W . (1) ⇔ (3). A prova é análoga à precedente, trocando os papeis
de v 0 + W e v 00 + W 0 . 
1.7.2. Subespaços afins e sistemas lineares. Enfim, demonstramos no vol.
I que, se um sistema linear de n variáveis não for impossı́vel, o conjunto das suas
soluções é um subespaço afim de Kn , o qual é vetorial se, e somente se, o sistema é
homogêneo. Reciprocamente, todo subespaço afim de Kn é o conjunto das soluções
de um sistema linear não impossı́vel de n variáveis. Contudo, como no caso dos
subespaços vetoriais, pode acontecer que um sistema não linear defina um subespaço
afim, pois pode ser equivalente a um sistema linear.
Observação 1.7.11. Os subespaços afins podem ser também caracterizados
pela propriedade de serem fechados por combinações convexas. Aprofundaremos
esse assunto no vol. III. ♦
1.7.3. Exercı́cios.
1.26. Demonstre que A ⊂ C3 , definido por A = {(a, b, c) : a − b = 1; a − (2 − i)c = i},
é um subespaço afim.
1.27. Seja A ⊂ Kn o subconjunto formado pelos vetores com pelo menos uma entrada
igual a 1. Estabeleça se A é um subespaço afim de Kn .
1.28. Sejam V = SeqC e A ⊂ V o subconjunto formado pelas sequências (an ) tais que
limn→+∞ an = i. Estabeleça se A é um subespaço afim de V .
1.29. Seja V = Q[x]; seja A ⊂ V o subconjunto formado pelos polinômios tais que o
coeficiente de grau 0 é igual a 2 e seja B ⊂ V o subconjunto formado pelos polinômios tais
que o coeficiente de grau máximo é igual a 2. Estabeleça se A e B são subespaços afins
de V .
1.30.R(∗) Sejam V = C 0 (R) e A ⊂ V o subconjunto formado pelas funções contı́nuas
+∞
tais que −∞ f = −3. Estabeleça se A é um subespaço afim de V .
1.8. MATRIZ DE MUDANÇA DE BASE 49

1.8. Matriz de mudança de base


Nesta seção usaremos a notação de Einsten, introduzida na seção 0.8. Vamos
definir a noção de “matriz de mudança de base”, já introduzida no vol. I (seção
1.8), em um contexto levemente mais amplo e considerando um corpo qualquer.
Sejam A = {a1 , . . . , ak } ⊂ V uma famı́lia de vetores e X ∈ M (k, h; K) uma matriz.
Podemos construir a famı́lia de vetores B = {b1 , . . . , bh } ⊂ V , tal que bi é combinação
linear de A, com coeficientes dados pela i-ésima coluna de X. Logo, se X = [xij ],
temos que:
b1 = x11 a1 + · · · + xk1 ak
.. ..
. .
bh = x1h a1 + · · · + xkh ak .
Equivalentemente:

(7) b i = x j i aj .

Nesse caso usamos a seguinte notação:

(8) B = A · X.

A notação (8) é sugerida pelo fato que a fórmula (7) é formalmente a mesma que
define o produto de matrizes. De fato, se construı́mos dois “vetores de vetores”
(a1 , . . . , ak ) e (b1 , . . . , bh ) e aplicamos a regra formal do produto de matrizes, obte-
mos:
x11 · · · x1h
 
a1 · · · ak  ... ..  = b · · · b  .
 
. 1 h
xk1 · · · xkh
Em particular, se V = Kn , podemos identificar os “vetor de vetores” (a1 , . . . , ak ) e
(b1 , . . . , bh ) com as matrizes A = [a1 | · · · | ak ] ∈ M (n, k; K) e B = [b1 | · · · | bh ] ∈
M (n, h; K), portanto a identidade (8) se torna a igualdade de matrizes B = AX.

Lema 1.8.1. Sejam A = {a1 , . . . , ak } ⊂ V , X ∈ M (k, h; K) e Y ∈ M (h, r; K).


Temos que:
(1) (A · X) · Y = A · (XY );
(2) A · Ik = A.

Demonstração. Sejam X = [xij ], Y = [yij ], XY = [zij ], A · X = {b1 , . . . , bh },


(A · X) · Y = {c1 , . . . , cr } e A · (XY ) = {d1 , . . . , dr }. Aplicando (7), a demonstração
do primeiro item é análoga à da associatividade do produto de matrizes:

di = z ji aj = xj l y li aj = y li (xj l aj ) = y li bl = ci .

Em relação ao segundo item, seja A · Ik = {b1 , . . . , bk }. Aplicando (7) temos que


b i = δ j i aj = ai . 
50 1. ESPAÇOS VETORIAIS

1.8.1. Mudança de uma base para outra. Sejam A = {a1 , . . . , an } e A0 =


{a01 , . . . , a0n }
duas bases de V . Como os elementos de A0 são em particular vetores
de V , cada um deles é uma combinação linear dos vetores de A de modo único,
portanto existe uma única matriz X = [xij ] ∈ M (n; K) tal que A0 = A · X, ou seja,
a0i = xj i aj .
Definição 1.8.2. A única matriz X, tal que A0 = A · X, é dita matriz de
mudança de base de A a A0 . A denotamos por µ(A, A0 ). ♦
Com esta notação, a fórmula A0 = A · X equivale à
(9) A · µ(A, A0 ) = A0 .
Observação 1.8.3. Sejam C a base canônica de Kn e A = {a1 , . . . , an } uma
base de Kn . Então µ(C, A) = [a1 | · · · | an ]. ♦
Lema 1.8.4. Sejam A, A0 e A00 três bases de V . Temos que:
(1) µ(A, A00 ) = µ(A, A0 ) · µ(A0 , A00 );
(2) µ(A, A) = In ;
(3) µ(A, A0 ) é invertı́vel e µ(A0 , A) = µ(A, A0 )−1 .
Demonstração. Pela fórmula (9), temos que A00 = A0 · µ(A0 , A00 ) = (A ·
µ(A, A0 )) · µ(A0 , A00 ), logo, pelo item (1) do lema 1.8.1, temos que A00 = A ·
(µ(A, A0 )µ(A0 , A00 )), portanto µ(A, A00 ) = µ(A, A0 )µ(A0 , A00 ). O segundo item segue
diretamente do item (2) do lema 1.8.1. Enfim, em relação ao terceiro, temos que
(2) (1)
µ(A, A0 ) · µ(A0 , A) = µ(A, A) = In .
O mesmo vale trocando os papeis de A e A0 , logo µ(A0 , A) = µ(A, A0 )−1 . 
1.8.2. Mudança de uma base para uma famı́lia. Mais em geral, sejam
A = {a1 , . . . , an } uma base de V e B = {b1 , . . . , bk } uma famı́lia qualquer. Também
neste caso existe uma única matriz X ∈ M (n, k; K) tal que B = A · X. Chamamos
de µ(A, B) essa matriz, logo a fórmula B = A · X equivale à (9).
Lema 1.8.5. A = {a1 , . . . , an } uma base de V e B = {b1 , . . . , bk } uma famı́lia
finita.
(1) B é independente se, e somente se, a famı́lia das colunas de µ(A, B) é
independente em Kn .
(2) B gera V se, e somente se, a famı́lia das colunas de µ(A, B) gera Kn .
(3) B é uma base de V se, e somente se, a famı́lia das colunas de µ(A, B) é
uma uma base de Kn (em particular, µ(A, B) é quadrada).
(4) B é uma base de V se e somente µ(A, B) é quadrada e invertı́vel.
Demonstração. Seja µ(A, B) = [xij ]. Ademais, sejam {x1 , . . . , xk } as colunas
de µ(A, B), isto é, xi = (x1i , . . . , xni ). (1) Pela fórmula (7) temos que λi bi = λi xj i aj ,
portanto, sendo A uma base, λi bi = 0 sse λi xj i = 0 para todo j, sse λi xi = 0 (dado
que xj i é a j-ésima entrada de xi ). Logo, λi = 0 para todo i é a única solução da
equação λi bi = 0 se, e somente se, é a única solução da equação λi xi = 0. (2) Seja
1.8. MATRIZ DE MUDANÇA DE BASE 51

v ∈ V . Sendo A uma base, existe único λ = (λ1 , . . . , λn ) ∈ Kn tal que v = λi ai .


O vetor v é combinação linear de B se, e somente se, existe µ = (µ1 , . . . , µk ) ∈ Kk
tal que v = µj bj . Pela fórmula (7) temos que µj bj = µj xij ai , logo λi = µj xij ,
isto é, λ = µj xj . Por isso, para todo v ∈ V existe µ tal que v = µj bj se, e
somente se, todo λ ∈ Kn é combinação linear de {x1 , . . . , xk }. (3) Segue de 1
e 2. (4) Se B for uma base, então µ(A, B) é invertı́vel pelo lema 1.8.4 item 3.
Reciprocamente, seja X := µ(A, B) invertı́vel. Então, pelo lema 1.8.1, temos que
B · X −1 = (A · X) · X −1 = A · (XX −1 ) = A · In = A, portanto os vetores de A são
combinação linear dos vetores de B. Como hAi = V , temos que hBi = V . Como B
contém n elementos, é uma base pelo teorema 1.6.12 item 3. 
Corolário 1.8.6. Uma matriz X ∈ M (n; K) é invertı́vel se, e somente se, a
famı́lia das colunas de X é independente em Kn , se, e somente se, a famı́lia das
linhas de X é independente em Kn .
Demonstração. Sejam C a base canônica de Kn e A = {x1 , . . . , xn } a famı́lia
das colunas de X. Temos que X = µ(C, A), portanto, pelo lema 1.8.5 intens 3 e 4,
X é invertı́vel se, e somente se, A é uma base de Kn . Como A contém n elementos,
é uma base de Kn se, e somente se, é independente. Enfim, é fácil verificar que X T
é invertı́vel se, e somente se, X é invertı́vel, sendo nesse caso (X T )−1 = (X −1 )T .
Como as linhas de X são as colunas de X T , obtemos a tese. 

1.8.3. Mudança de coordenadas. Sejam A = {a1 , . . . , an } uma base de V e


X = [xij ] ∈ M (n, k; K). Ademais, sejam B = A · X = {b1 , . . . , bk } e v ∈ hBi. Temos
que v = λi ai de modo único, sendo A uma base, e v = µj bj , sendo v ∈ hBi por
hipótese. Por isso:
λi ai = v = µj bj = µj xij ai ,
logo λi = xij µj , ou seja:
µ1 λ1
   

(10) A  ..  =  ...  .
.
µm λn
Em particular, se B for também uma base, então µ(A, B) é a matriz de mudança de
base, portanto a fórmula (10) determina os coeficientes de um vetor a respeito de A,
a partir dos a respeito de B. Claramente, para acharmos os coeficientes a respeito
de B a partir dos a respeito de A, temos que inverter µ(A, B) (equivalentemente,
temos que calcular µ(B, A)).

1.8.4. Exercı́cios.
1.31. Dadas as duas bases de R3 A = {(1, −1, 0), (0, 1, 1), (0, 1, −1)} e A0 = {(1, 1, 1),
(0, 1, 0), (0, −1, −1)}, calcule µ(A, A0 ).
1.32. Seja A = {a1 , a2 , a3 } uma base de V . Demonstre que também a famı́lia B =
{2a1 − a2 + a3 , a1 + a2 + a3 , a2 − a3 } é uma base de V .
52 1. ESPAÇOS VETORIAIS

1.9. Interseção de subespaços vetoriais e afins


Há duas operações naturais entre subespaços vetoriais de V , sendo V fixado:
a interseção e a soma. O mesmo vale em relação aos subespaços afins. Nesta
seção vamos analisar a interseção, enquanto preferimos adiar ao próximo capı́tulo a
discussão sobre a soma, pois ficará bem mais clara quando conheceremos a noção
de isomorfismo de espaços vetoriais.
1.9.1. Subespaços vetoriais. Vamos demonstrar que a interseção de uma
famı́lia (não necessariamente finita) de subespaços vetoriais de V é um subespaço
vetorial de V .
Lema 1.9.1.T Seja {Wi }i∈I ⊂ V uma famı́lia de subespaços vetoriais. A in-
terseção W := i∈I Wi é um subespaço vetorial de V .
Demonstração. Antes de tudo W 6= ∅, pois 0 ∈ W . Sejam w1 , w2 ∈ W e
λ1 , λ2 ∈ K. Como Wi é um subespaço vetorial e como w1 , w2 ∈ Wi , temos que
λ1 w1 + λ2 w2 ∈ Wi para cada i ∈ I. Logo, λ1 w1 + λ2 w2 ∈ W . 
Usando a notação do lema precedente, pode acontecer que W = {0}: por exem-
plo, se W1 = h(1, 0)i e W2 = h(0, 1)i em K2 , temos que W1 ∩ W2 = {0}. Em geral,
dado que W ⊂ Wi para todo i ∈ I, o lema 1.6.16 implica imediatamente que:
\ 
(11) dim Wi ≤ min{dim Wi }.
i∈I
i∈I

O mı́nimo pode não ser atingido. Por exemplo, considerando novamente W1 =


h(1, 0)i e W2 = h(0, 1)i em K2 , temos que dim(W1 ∩ W2 ) = 0, enquanto min{dim W1 ,
dim W2 } = 1.
1.9.2. Subespaços afins. A interseção de dois subespaços afins, contraria-
mente à de dois subespaços vetoriais, pode ser vazia. Por exemplo, duas retas
paralelas e distintas em R2 têm interseção vazia; duas retas em R3 podem ter in-
terseção vazia mesmo não sendo paralelas (por exemplo, isso acontece com A1 =
(0, 0, 0) + h(1, 0, 0)i e A2 = (0, 1, 0) + h(0, 0, 1)i). Agora vamos mostrar que, se a
interseção de uma famı́lia de subespaços afins não for vazia, então é um subespaço
afim, cujo subespaço-direção é a interseção dos subespaços-direção dos elementos da
famı́lia.
Lema 1.9.2. Seja {Ai }i∈I ⊂ V uma famı́liaT de subespaços afins e seja Wi o su-
bespaço-direção de Ai . A interseção A := Ti∈I Ai , se não for vazia, é um subespaço
afim de V , cujo subespaço direção é W := i∈I Wi .
Demonstração. Seja Ai = v i + Wi . Por hipótese existe v ∈ A. Pelo lema
1.7.10 temos que Ai = v + Wi , logo A = v + W . 
Usando a notação do lema precedente, se A 6= ∅, a fórmula (11) implica imedia-
tamente a seguinte:
\ 
(12) dim Ai ≤ min{dim Ai }.
i∈I
i∈I
1.9. INTERSEÇÃO DE SUBESPAÇOS VETORIAIS E AFINS 53

De fato, a dimensão de um subespaço afim é definida como a dimensão do su-


bespaço-direção correspondente, portanto (12) se obtém aplicando (11) aos su-
bespaços-direção.
1.9.3. Exercı́cios.
1.33. Dados os dois seguintes subespaços vetoriais de R4 :
W1 = h(1, 1, 0, 1), (3, −1, 2, 3)i W2 = h(0, 2, 1, −1), (1, 1, 2, 0)i
encontre uma base de W1 ∩ W2 .
1.34. Dados os dois seguintes subespaços afins de R4 :
A1 = (−1, −1, −1, −1) + h(1, 1, 0, 1), (3, −1, 2, 3)i
A2 = (1, 1, 1, 0) + h(0, 2, 1, −1), (1, 1, 2, 0)i
determine A1 ∩ A2 .
1.35. Dados os dois seguintes subespaços afins de R4 :
A1 = (−2, −2, 0, 0) + h(1, 1, 0, 1), (3, −1, 2, 3)i
A2 = (0, 0, 2, 2) + h(0, 2, 1, −1), (1, 1, 2, 0)i
determine A1 ∩ A2 .
1.36. Dados dois subespaços vetoriais W1 , W2 ⊂ V , demonstre que W1 ∪ W2 é um
subespaço vetorial de V se, e somente se, W1 ⊂ W2 ou W2 ⊂ W1 .
CAPı́TULO 2

Funções lineares e afins

No capı́tulo anterior estudamos a teoria básica dos espaços vetoriais. Este


capı́tulo será dedicado às funções entre espaços vetoriais sobre um corpo fixado,
selecionando em particular as que “se comportam bem” a respeito das operações
envolvidas, ou seja, a soma e o produto externo. Essas funções são ditas lineares.
Estudaremos também as funções afins, que generalizam as lineares e serão particu-
larmente relevantes no vol. III. Daqui em diante, quando for necessário, usaremos a
notação de Einstein, introduzida na seção 0.8.

2.1. Funções lineares


Vamos denotar por V e W dois espaços vetoriais sobre um corpo K fixado.
Definição 2.1.1. Uma função f : V → W é dita linear se:
(1) f (v 1 + v 2 ) = f (v 1 ) + f (v 2 ) para todos v 1 , v 2 ∈ V ;
(2) f (λv) = λf (v) para todos v ∈ V e λ ∈ K. ♦
Observação 2.1.2. Na igualdade f (v 1 + v 2 ) = f (v 1 ) + f (v 2 ), contida no item
(1), do lado esquerdo o sı́mbolo ‘+’ indica a soma em V , enquanto do lado direito
indica a soma em W . O mesmo vale em relação ao produto externo no item (2).
Portanto, para sermos precisos, terı́amos que usar sı́mbolos distintos. Evitamos de
fazer isso para não complicar a notação, mas é importante que o leitor se dê conta
que são operações diferentes. ♦
Observação 2.1.3. Se valer o item 1 da definição 2.1.1, se diz também que f
respeita a soma. Analogamente, se valer o item 2, se diz também que f respeita o
produto externo. Por isso, uma função é linear se, e somente se, respeita a soma e o
produto externo. ♦
Exercı́cio 2.1.4. Verifique que a seguinte função é linear:
f : R3 → R2
(x, y, z) 7→ (2x − y + 3z, y + 5z).
Resolução. Sejam v 1 = (x1 , y1 , z1 ), v 2 = (x2 , y2 , z2 ) ∈ R3 dois vetores genéricos.
Temos que:
 
x1 + x2  
2(x 1 + x 2 ) − (y 1 + y 2 ) + 3(z 1 + z 2 )
f (v 1 + v 2 ) = f  y1 + y2  =
(y1 + y2 ) + 5(z1 + z2 )
z 1 + z2
   
2x1 − y1 + 3z1 2x2 − y2 + 3z2
= + = f (v 1 ) + f (v 2 ).
y1 + 5z1 y2 + 5z2

55
56 2. FUNÇÕES LINEARES E AFINS

Isso demonstra que o item 1 da definição 2.1.1 é verificado. Analogamente, sejam v 0 =


(x0 , y0 , z0 ) ∈ R3 um vetor genérico e λ ∈ R. Temos que:
 
λx0  
2(λx 0 ) − (λy0 ) + 3(λz 0 )
f (λv 0 ) = f  λy0  =
(λy0 ) + 5(λz0 )
λz0
 
2x0 − y0 + 3z0
=λ = λf (v 0 ).
y0 + 5z0
Isso demonstra que também o item 2 da definição 2.1.1 é verificado, logo f é linear. ♦

Exercı́cio 2.1.5. Verifique que a seguinte função não é linear:


f : R2 → R
(x, y) 7→ xy.
Resolução – Método I. Sejam v 1 = (1, 1) e v 2 = (2, 2). Temos que f (v 1 + v 2 ) =
f (3, 3) = 9, enquanto f (v 1 ) + f (v 2 ) = 1 + 4 = 5, logo o item 1 da definição 2.1.1 não é
satisfeito.
Resolução – Método II. Sejam v 0 = (1, 1) e λ = 2. Temos que f (λv 0 ) = f (2, 2) =
4, enquanto λf (v 0 ) = 2 · 1 = 2, logo o item 2 da definição 2.1.1 não é satisfeito. ♦

Exemplo 2.1.6. Seja V o espaço das funções diferenciáveis de R a R e seja W o espaço


das funções de R a R. Seja f : V → W a função f (ϕ) = ϕ0 , ou seja, a função que associa
a uma função diferenciável ϕ : R → R a sua derivada ϕ0 : R → R. Então f é uma função
linear, pois, dadas ϕ, ψ ∈ V , temos f (ϕ + ψ) = (ϕ + ψ)0 = ϕ0 + ψ 0 = f (ϕ) + f (ψ) e, dados
ϕ ∈ V e λ ∈ R, temos f (λϕ) = (λϕ)0 = λϕ0 = λf (ϕ). ♦
Os exemplos precedentes mostram que:
• para verificar que uma função f : V → W não é linear, é suficiente atuar
de uma das duas seguintes maneiras:
– exibir dois vetores v 1 , v 2 ∈ V tais que f (v 1 + v 2 ) 6= f (v 1 ) + f (v 2 );
– exibir um vetor v 0 ∈ V e um escalar λ ∈ K tais que f (λv 0 ) 6= λf (v 0 );
• para verificar que uma função f : V → W é linear, temos que verificar as
duas seguintes condições:
– dados dois vetores genéricos v 1 , v 2 ∈ V , temos que f (v 1 +v 2 ) = f (v 1 )+
f (v 2 );
– dados um vetor genérico v 0 ∈ V e um escalar genérico λ ∈ K, temos
que f (λv 0 ) = λf (v 0 ).
Veremos nas próximas seções alguns atalhos para tornar mais rápida a verificação
da (não) linearidade de uma função.

2.1.1. Independência das duas condições. Os seguintes exemplos mostram


que as duas condições da definição 2.1.1 são independentes, isto é, uma função pode
respeitar a soma, mas não o produto externo, ou vice-versa.
p
Exemplo 2.1.7. Seja f : R2 → R, (x, y) 7→ 3 x3 + y 3 . Vale o √ item 2 da definição 2.1.1,
mas não o item 1, pois f (1, 0) + f (0, 1) = 2, enquanto f (1, 1) = 3 2. ♦
2.1. FUNÇÕES LINEARES 57

Exemplo 2.1.8. Seja f : C → C a conjugação, isto é, f (z) = z̄. Vale o item 1 da
definição 2.1.1, pois z + w = z̄ + w̄, mas não o item 2, pois λz = λ̄ · z̄ 6= λ · z̄ para λ ∈ C \ R
e z 6= 0. ♦
2.1.2. Propriedades principais. O seguinte lema mostra duas propriedades
importantes das funções lineares.
Lema 2.1.9. Seja f : V → W linear. Temos que:
• f (0) = 0;
• para todo v ∈ V , f (−v) = −f (v).
Demonstração. f (0) = f (0 · 0) = 0 · f (0) = 0. Analogamente, f (−v) =
f ((−1)v) = (−1)f (v) = −f (v). 
Os seguintes exemplos mostram que não vale a volta do lema 2.1.9.
Exemplo 2.1.10. Na demonstração do lema 2.1.9 só usamos o item 2 da definição
2.1.1, não o item 1. Por isso, a função considerada no exemplo 2.1.7 verifica as duas
condições enunciadas no lema, mas não é linear. ♦
Exemplo 2.1.11. A função f : R → R, x 7→ x3 , verifica as duas condições do lema
2.1.9, dado que 03 = 0 e (−x)3 = −(x3 ). Contudo, não verifica nenhum dos dois itens da
definição 2.1.1. ♦
Todavia, o lema 2.1.9 pode ser muito útil em negativo, como mostram os seguin-
tes exemplos.
Exercı́cio 2.1.12. Verifique que a função f : R2 → R2 , (x, y) 7→ (x + 1, y), não é
linear.
Resolução. Como f (0, 0) = (1, 0) 6= (0, 0), a função f não é linear pelo primeiro
item do lema 2.1.9. ♦

Exercı́cio 2.1.13. Verifique que a função f : R2 → R, (x, y) 7→ xy, considerada no


exercı́cio 2.1.5, não é linear.
Resolução. Neste caso f (0, 0) = 0, mas f (1, 1) = 1 e f (−1, −1) = 1, logo f (−(1, 1)) 6=
−f (1, 1), portanto f não é linear pelo segundo item do lema 2.1.9. ♦

Vimos que, para verificar que uma função é linear, devemos verificar que respeite
a soma e o produto externo. O item 2 do seguinte lema mostra um modo levemente
mais rápido para reconhecer as funções lineares.
Lema 2.1.14. Seja f : V → W uma função. As seguintes condições são equiva-
lentes:
(1) f é linear;
(2) f (λ1 v 1 + λ2 v 2 ) = λ1 f (v 1 ) + λ2 f (v 2 ) para todos v 1 , v 2 ∈ V e λ1 , λ2 ∈ K;
(3) f (λ1 v 1 +· · ·+λk v k ) = λ1 f (v 1 )+· · ·+λk f (v k ) para todos k ∈ N∗ , v 1 , . . . , v k ∈
V e λ1 , . . . , λk ∈ K.
Demonstração. (1) ⇒ (2). Pelo item 1 da definição 2.1.1, temos que f (λ1 v 1 +
λ2 v 2 ) = f (λ1 v 1 ) + (λ2 v 2 ). Pelo item 2 temos que f (λ1 v 1 ) = λ1 f (v 1 ) e f (λ2 v 2 ) =
58 2. FUNÇÕES LINEARES E AFINS

λ2 f (v 2 ), logo f (λ1 v 1 + λ2 v 2 ) = λ1 f (v 1 ) + λ2 f (v 2 ). (2) ⇒ (1). Escolhendo λ1 =


λ2 = 1, obtemos f (v 1 + v 2 ) = f (v 1 ) + f (v 2 ). Escolhendo v 1 = v 2 e λ2 = 0 obtemos
f (λ1 v 1 ) = λ1 f (v 1 ). Por isso, a definição 2.1.1 é satisfeita. (2) ⇒ (3). Indução sobre
k. Acabamos de provar que a tese vale para k = 1. Para k = 2 a tese vale por
hipótese. Se vale para k − 1, temos que f (λ1 v 1 + · · · + λk v k ) = f (1(λ1 v 1 + · · · +
λk−1 v k−1 ) + λk v k ) = 1f (λ1 v 1 + · · · + λk−1 v k−1 ) + λk v k = λ1 f (v 1 ) + · · · + λk f (v k ).
(3) ⇒ (2). Óbvio, pois (2) é um caso particular de (3) para k = 2. 
Observação 2.1.15. O item 3 do lema 2.1.14 pode ser reformulado afirmando
que f respeita as combinações lineares. Em particular, o item 2 pode ser reformulado
afirmando que f respeita as combinações lineares de dois elementos. Usando a
notação de Einsten, o item 3 equivale à seguinte fórmula:
(13) f (λi v i ) = λi f (v i ). ♦
Aplicando o item (2) do lema 2.1.14 para demonstrar a linearidade de uma
função, só temos que fazer uma verificação relativa a uma combinação linear de
dois vetores, ao invés de duas verificações, uma para a soma e uma para o produto
externo. Vamos resolver o exercı́cio 2.1.4 desta maneira.
Exercı́cio 2.1.16. Verifique que a seguinte função é linear:
f : R3 → R2
(x, y, z) 7→ (2x − y + 3z, y + 5z).
Resolução. Sejam v 1 = (x1 , y1 , z1 ), v 2 = (x2 , y2 , z2 ) ∈ R3 dois vetores genéricos e
sejam λ1 , λ2 ∈ R. Temos que:
 
λ1 x1 + λ2 x2
f (λ1 v 1 + λ2 v 2 ) = f  λ1 y1 + λ2 y2 
λ 1 z1 + λ 2 z2
 
2(λ1 x1 + λ2 x2 ) − (λ1 y1 + λ2 y2 ) + 3(λ1 z1 + λ2 z2 )
=
(λ1 y1 + λ2 y2 ) + 5(λ1 z1 + λ2 z2 )
   
2x1 − y1 + 3z1 2x2 − y2 + 3z2
= λ1 + λ2 = λ1 f (v 1 ) + λ2 f (v 2 ).
y1 + 5z1 y2 + 5z2
Isso demonstra que o item 2 do lema 2.1.14 é verificado, logo f é linear. ♦

2.1.3. Exercı́cios.
2.1. Estabeleça quais, entre as seguintes funções, são lineares:
(1) f : R2 → R2 , (x, y) 7→ (y, x);
(2) f : R2 → R3 , (x, y) 7→ (x, x + y, 0);
(3) f : C2 → C2 , (x, y) 7→ (x, i);
(4) f : C2 → C2 , (x, y) 7→ (x, ȳ);
(5) f : R[x] → R[x], an xn + · · · + a0 7→ a1 x + a0 ;
(6) f : R[x] → R[x], p(x) 7→ p0 (x);
(7) f : M (2; C) → M (2; C), A 7→ A2 ;
(8) f : C 0 (R) → R, ϕ 7→ ϕ(0);
(9) f : C 0 (R) → C 0 (R), ϕ 7→ (x 7→ ϕ(x2 ));
(10) f : C 0 (R) → C 0 (R), ϕ 7→ (x 7→ ϕ(3x) + x).
2.1. FUNÇÕES LINEARES 59

2.1.4. Funções lineares de Kn a Km . Podemos achar uma caracterização


explı́cita das funções lineares de Kn a Km , a partir do seguinte exemplo.
Exemplo 2.1.17. Consideremos a função linear f : R3 → R2 do exercı́cio 2.1.16. Ob-
servamos que cada componente do contra-domı́nio é uma combinação linear das entradas
do domı́nio, portanto podemos escrever a função f da seguinte forma:
 
x           
2x − y + 3z 2 −1 3 2 −1 3 x
f y  = =x +y +z = .
y + 5z 0 1 5 0 1 5 y
z
Definindo:  
2 −1 3
A :=
0 1 5
conseguimos escrever f da forma f (v) = Av. ♦
O exemplo precedente pode ser generalizado da seguinte maneira. Consideremos
uma matriz A ∈ M (m, n; K). Fica definida a seguinte função:
fA : Kn → Km
(14)
v 7→ Av.
Em particular, se A = [aij ], temos que:
x1 a11 · · · a1n x1 a11 x1 + · · · + a1n xn
      

fA  ...  =  ... ..   ..  = 
. .
..
. .
xn am1 · · · amn xn am1 x1 + · · · + amn xn
Agora vamos demonstrar que:
• a função (14) é linear;
• toda função linear de Kn a Km pode ser expressa na forma (14), em relação
a uma matriz A adequada;
• a matriz A é completamente determinada por fA , isto é, a cada função
linear f : Kn → Km fica associada uma única matriz A ∈ M (m, n; K) tal
que f = fA .
Isso determina completamente o conjunto das funções lineares de Kn a Km , o qual
coincide essencialmente com o conjunto M (m, n; K).
Lema 2.1.18. A função (14) é linear para toda matriz A ∈ M (m, n; K).
Demonstração. É consequência imediata das propriedades do produto de
matrizes, pensando no vetor v como em uma matriz de ordem (n, 1). De fato,
fA (λ1 v 1 + λ2 v 2 ) = A(λ1 v 1 + λ2 v 2 ) = λ1 Av 1 + λ2 Av 2 = λ1 fA (v 1 ) + λ2 fA (v 2 ). 
Lema 2.1.19. Seja f : Kn → Km linear. Existe uma matriz A ∈ M (m, n; K) tal
que f = fA , sendo fA definida por (14).
Demonstração. Seja {e1 , . . . , en } a base canônica de Kn e seja ai := f (ei ). En-
fim, seja A := [a1 | · · · | an ]. Vamos demonstrar que f = fA . Seja v = (x1 , . . . , xn ) =
x1 e1 + · · · + xn en . Por linearidade, temos que f (v) = x1 f (e1 ) + · · · + xn f (en ) =
x1 a1 + · · · + xn an = Av = fA (v). 
60 2. FUNÇÕES LINEARES E AFINS

Seja L(Kn , Km ) o conjunto das funções lineares de Kn a Km . O lema 2.1.18


mostra que está bem definida a seguinte função:
Φ : M (m, n; K) → L(Kn , Km )
(15)
A → fA .
Lema 2.1.20. A função (15) é uma bijeção.
Demonstração. Por causa do lema 2.1.19 a função (15) é sobrejetora, portanto
só falta demonstrar que é injetora. Sejam A, B ∈ M (m, n; K) tais que fA = fB , isto
é, Av = Bv para todo v ∈ Kn . Equivalentemente, (A − B)v = 0 para todo v ∈ Kn .
Seja A − B = [w1 | · · · wn ]. Temos que wi = (A − B)ei = 0, portanto toda coluna
de A − B é nula, logo A − B = 0, ou seja, A = B. 
Enfim, sejam A ∈ M (m, n; K) e B ∈ M (r; m; K). Ficam definidas as funções
lineares fA : Kn → Km e fB : Km → Kr . Segue imediatamente das propriedades do
produto de matrizes que fB ◦ fA = fAB : Kn → Kr , isto é, a composição de funções
lineares corresponde ao produto de matrizes (invertendo a ordem).
2.1.5. Exercı́cios.
2.2. Escreva na forma (14) as seguintes funções lineares:
(1) f : R2 → R2 , (x, y) 7→ (y, x);
(2) f : R2 → R3 , (x, y) 7→ (x, x + y, 0);
(3) f : C3 → C2 , (x, y, z) 7→ (ix + y, iy + z);
(4) f : Q2 → Q, (x, y) 7→ x;
(5) f : C3 → C3 , (x, y, z) 7→ (z, y, x).

2.2. Núcleo e imagem


Nesta seção começamos a aprofundar a estrutura das funções lineares, a partir
da seguinte definição fundamental.
Definição 2.2.1. Seja f : V → W uma função linear.
• O núcleo ou kernel de f é o subconjunto de V formado pelos vetores v ∈ V
tais que f (v) = 0. Se denota por Ker(f ). Em fórmulas, Ker(f ) := {v ∈ V :
f (v) = 0}.
• A imagem de f é o subconjunto de W formato pelos vetores w ∈ W que são
imagem de pelo menos um vetor de V . Se denota por Im(f ). Em fórmulas,
Im(f ) := {w ∈ W : ∃v ∈ V : f (v) = w}. ♦
Observamos que a definição de imagem é a mesma que se aplica a qualquer
função entre dois conjuntos. Pelo contrário, o núcleo, para ser definido, pressupõe
que exista 0 ∈ W , portanto não pode ser definido para qualquer contra-domı́nio.
Quando o contra-domı́nio for um espaço vetorial, a definição faz sentido.
Lema 2.2.2. Seja f : V → W uma função linear.
(1) Ker(f ) é um subespaço vetorial de V .
(2) Im(f ) é um subespaço vetorial de W .
(3) f é injetora se, e somente se, Ker(f ) = {0}.
2.2. NÚCLEO E IMAGEM 61

(4) f é sobrejetora se, e somente se, Im(f ) = W .


Demonstração. (1) Sejam v 1 , v 2 ∈ Ker(f ) e λ1 , λ2 ∈ K. Temos que f (λ1 v 1 +
λ2 v 2 ) = λ1 f (v 1 ) + λ2 f (v 2 ) = λ1 0 + λ2 0 = 0, logo λ1 v 1 + λ2 v 2 ∈ Ker(f ). (2) Sejam
w1 , w2 ∈ Im(f ) e λ1 , λ2 ∈ K. Por definição de imagem existem v 1 , v 2 ∈ V tais que
f (v 1 ) = w1 e f (v 2 ) = w2 . Por isso f (λ1 v 1 +λ2 v 2 ) = λ1 f (v 1 )+λ2 f (v 2 ) = λ1 w1 +λ2 w2 ,
logo λ1 w1 + λ2 w2 ∈ Im(f ). (3) (⇒). Seja v ∈ Ker(f ). Então f (v) = f (0). Como f
é injetora, v = 0. (⇐). Seja f (v 1 ) = f (v 2 ). Então f (v 1 ) − f (v 2 ) = 0, portanto, por
linearidade, f (v 1 − v 2 ) = 0, logo v 1 − v 2 ∈ Ker(f ). Como Ker(f ) = 0, temos que
v 1 − v 2 = 0, logo v 1 = v 2 . (4) Óbvio por definição de sobrejetividade. 
Exemplo 2.2.3. Seja V = K[x] e seja f (a0 +a1 x+· · ·+an xn ) := a0 +a1 x2 +· · ·+an x2n .
O leitor pode verificar que f é linear. Ademais, é injetora. De fato, seja f (p(x)) = 0, sendo
p(x) = a0 +a1 x+· · ·+an xn . Então a0 +a1 x2 +· · ·+an x2n = 0, portanto a1 = · · · = an = 0,
logo p(x) = 0. Isso prova que Ker(f ) = {0}. ♦
Exemplo 2.2.4. Seja V = SeqR . Seja f : V → V a função definida por f (a0 , a1 , . . .) =
(a2 , a3 , . . .). O leitor pode verificar que f é linear. Ademais, f é sobrejetora. De fato, seja
(a0 , a1 , . . .) ∈ V . Então f (0, 0, a0 , a1 , . . .) = (a0 , a1 , . . .), logo Im(f ) = V . ♦
A seguinte definição, embora concirna somente a nomenclatura, será usada fre-
quentemente.
Definição 2.2.5. Uma função linear é dita também homomorfismo de espaços
vetoriais. Se for injetora é dita monomorfismo. Se for sobrejetora é dita epimorfismo.
Se for bijetora é dita isomorfismo. Ademais, um homomorfismo f : V → V , cujo
domı́nio e cujo contra-domı́nio coincidem, é dito também endomorfismo; se for um
isomorfismo, é dito também automorfismo. ♦
A noção de isomorfismo é particularmente relevante e será analisada em detalhe
na seção 2.5.
2.2.1. Teorema do núcleo e da imagem. O seguinte teorema mostra uma
ligação fundamental entre a dimensão do núcleo e a da imagem de uma função linear.
Teorema 2.2.6 (Teorema do núcleo e da imagem). Seja f : V → W uma função
linear, sendo V finitamente gerado. Então Ker(f ) e Im(f ) são finitamente gerados
e vale a seguinte fórmula:
dim Ker(f ) + dim Im(f ) = dim V.
Demonstração. Claramente Ker(f ) é finitamente gerado, sendo um subespaço
de V . Sejam dim V = n e dim Ker(f ) = k ≤ n. Seja U = {u1 , . . . , uk } uma base
de Ker(f ). Pelo teorema da base incompleta, podemos completar U a uma base
A = {u1 , . . . , uk , ak+1 , . . . , an } de V . Verifiquemos que B = {f (ak+1 ), . . . , f (an )}
é uma base de Im(f ). Isso prova que Im(f ) é finitamente gerado e dim Im(f ) =
n − k = dim V − dim Ker(f ).
Seja w ∈ Im(f ). Por definição, existe v ∈ V tal que f (v) = w. Sendo A uma
base, temos que v = λ1 u1 + · · · + λk uk + λk+1 ak+1 + · · · + λn an . Logo, w = f (v) =
λk+1 f (ak+1 ) + · · · + λn f (an ). Isso prova que B gera Im(f ). Só falta provar que é
independente.
62 2. FUNÇÕES LINEARES E AFINS

Seja λk+1 f (ak+1 ) + · · · + λn f (an ) = 0. Então f (λk+1 ak+1 + · · · + λn an ) = 0,


portanto λk+1 ak+1 + · · · + λn an ∈ Ker(f ). Como U é uma base de Ker(f ), temos
que λk+1 ak+1 + · · · + λn an = λ1 u1 + · · · + λk uk , logo λk+1 ak+1 + · · · + λn an − λ1 u1 −
· · · − λk uk = 0. Sendo A uma base, os coeficientes são todos nulos, em particular
λk+1 = · · · = λn = 0. 
Corolário 2.2.7. Seja f : V → W uma função linear, sendo V finitamente
gerado.
(1) Se f for injetora, então dim V ≤ dim W ou W não é finitamente gerado.
(2) Se f for sobrejetora, então W é finitamente gerado e dim V ≥ dim W .
(3) Se f for bijetora, então W é finitamente gerado e dim V = dim W .
(4) Se W for finitamente gerado e dim V = dim W , então f é injetora se, e
somente se, é sobrejetora se, e somente se, é bijetora.
Demonstração. (1) Se f for injetora, pelo teorema 2.2.6 temos que dim Im(f ) =
dim V . Sendo sendo Im(f ) ⊂ W , temos que dim V = dim Im(f ) ≤ dim W ou W
não é finitamente gerado. (2) Se f for sobrejetora, então W = Im(f ). Pelo te-
orema 2.2.6, Im(f ) é finitamente gerada e dim Im(f ) = dim V − dim Ker(f ) ≤
dim V , logo dim W = dim Im(f ) ≤ dim V . (3) Óbvia consequência dos itens 1
e 2. (4) Se f for injetora, então dim Im(f ) = dim V pelo teorema 2.2.6. Sendo
dim V = dim W , temos Im(f ) = W . Se f for sobrejetora, então, pelo teorema 2.2.6,
dim(V ) = dim Im(f ) − dim Ker(f ), sendo dim Im(f ) = dim W = dim V , portanto
dim(V ) = dim(V ) − dim Ker(f ), logo dim Ker(f ) = 0. 
Observamos que, no teorema 2.2.6, a dimensão de W não desempenha nenhum
papel; aliás, W pode também ser não finitamente gerado. Isso é devido ao fato que
o complementar da imagem no contra-domı́nio não contribui significativamente a
determinar a estrutura da função f .
Exercı́cio 2.2.8. Seja f : R3 → R3 a seguinte função linear:
f (x, y, z) = (x − y + 2z, y + z, 2x − 3y + 3z).
Ache uma base do núcleo e uma da imagem de f . A função f é injetora? É sobrejetora?
Resolução. Para achar o núcleo de f , temos que resolver o sistema linear homogêneo
(x − y + 2z, y + z, 2x − 3y + 3z) = (0, 0, 0). Usemos o método de Gauss.
   
1 −1 2 0 1 −1 2 0
0 1 1 0 , III → III − 2I, 0 1 1 0 .
2 −3 3 0 0 −1 −1 0
Logo obtemos z = t, y = −t e x = −3t. Portanto, Ker(f ) = h(−3, −1, 1)i.
Temos que Im(f ) = {(x − y + 2z, y + z, 2x − 3y + 3z)} = x(1, 0, 2) + y(−1, 1, −3) +
z(2, 1, 3), logo Im(f ) = h(1, 0, 2), (−1, 1, −3), (2, 1, 3)i. Pelo teorema 2.2.6, dim Im(f ) =
3−dim Ker(f ) = 2, logo temos que achar dois geradores independentes. Portanto, Im(f ) =
h(1, 0, 2), (−1, 1, −3)i.
f não é injetora, pois Ker(f ) 6= {0}, nem é sobrejetora, pois dim Im(f ) < 3 (sendo
uma função de R3 a R3 , é injetora se, e somente se, é sobrejetora, pelo corolário 2.2.7 item
4). ♦
2.2. NÚCLEO E IMAGEM 63

A maneira em que calculamos a imagem no exercı́cio precedente sugere o seguinte


lema, válido em geral.
Lema 2.2.9. Seja A ∈ M (m, n; K). As colunas de A geram a imagem de
fA : Kn → Km , v 7→ Av.
Demonstração. Seja v = (v1 , . . . , vn ) ∈ Kn e seja A = [a1 | · · · | an ]. É
imediato verificar com o cálculo direto que Av = v i ai , logo todo elemento da imagem
de fA é combinação linear das colunas de A. 
2.2.2. Funções lineares e subespaços vetoriais. Os itens 1 e 2 do lema 2.2.2
são um caso particular do lema que vamos enunciar após a seguinte definição.
Definição 2.2.10. Seja f : V → W uma função linear.
• Seja V 0 ⊂ V um subconjunto. A imagem de V 0 através de f é o subconjunto
de W formato pelos vetores w ∈ W que são imagem de pelo menos um vetor
de V 0 . Se denota por f (V 0 ). Em fórmulas, f (V 0 ) = {w ∈ W : ∃v ∈ V 0 :
f (v) = w}.
• Seja W 0 ⊂ W um subconjunto. A imagem inversa de W 0 através de f é o
subconjunto de V formato pelos vetores v ∈ V cuja imagem através de f
pertence a W 0 . Se denota por f −1 (W 0 ). Em fórmulas, f −1 (W 0 ) = {v ∈ V :
f (v) ∈ W 0 }. ♦
Queremos deixar claro que a notação f −1 (W 0 ) não implica que f seja invertı́vel.
Lema 2.2.11. Seja f : V → W uma função linear.
• Se V 0 ⊂ V for um subespaço vetorial, então f (V 0 ) ⊂ W é um subespaço
vetorial.
• Se W 0 ⊂ W for um subespaço vetorial, então f −1 (W 0 ) ⊂ V é um subespaço
vetorial.
Demonstração. (1) Sejam w1 , w2 ∈ f (V 0 ) e λ1 , λ2 ∈ K. Por definição, existem
v 1 , v 2 ∈ V 0 tais que f (v 1 ) = w1 e f (v 2 ) = w2 . Como V 0 é um subespaço vetorial,
λ1 v 1 + λ2 v 2 ∈ V 0 , portanto λ1 w1 + λ2 w2 = f (λ1 v 1 + λ2 v 2 ) ∈ f (V 0 ). (2) Sejam
v 1 , v 2 ∈ f −1 (W 0 ) e λ1 , λ2 ∈ K. Por definição, f (v 1 ) ∈ W 0 e f (v 2 ) ∈ W 0 . Como
W 0 é um subespaço vetorial, f (λ1 v 1 + λ2 v 2 ) = λ1 f (v 1 ) + λ2 f (v 2 ) ∈ W 0 , portanto
λ1 v 1 + λ2 v 2 ∈ f −1 (W 0 ). 
Observação 2.2.12. Se, no lema 2.2.11, V 0 = V , então f (V 0 ) = Im(f ), portanto
obtemos o item (2) do lema 2.2.2. Se W 0 = {0}, então f −1 (W 0 ) = Ker(f ), portanto
obtemos o item (1) do lema 2.2.2. ♦
2.2.3. Exercı́cios.
2.3. Para cada uma das seguintes funções lineares, encontre uma base do núcleo e uma
da imagem. Ademais, estabeleça se a função é injetora, sobrejetora ou bijetora.
(1) f : R3 → R2 , (x, y, z) 7→ (x, y);
(2) f : R2 → R3 , (x, y) 7→ (x, y, 0);
(3) f : C3 → C3 , (x, y, z) 7→ (x − y, y − z, x − z);
(4) f : R3 → R2 , (x, y, z) 7→ (x + y + z, −x − y − z);
64 2. FUNÇÕES LINEARES E AFINS

(5) f : C3 → C3 , (x, y, z) 7→ (x + y, y + z, iz);


(6) f : R[x] → R[x], an xn + · · · + a1 x + a0 7→ an xn+1 + · · · + a1 x2 + a0 x.
2.4. Seja f : C 0 (R) → C 0 (R), ϕ 7→ (x 7→ ϕ(x2 )). Determine o kernel e a imagem de f .
Em particular, estabeleça se f é injetora, sobrejetora ou bijetora.

2.3. Bases e funções lineares


O seguinte lema mostra uma propriedade fundamental das funções lineares, ou
seja, o fato que uma função linear é completamente determinada pelas imagens dos
elementos de uma base do domı́nio. De fato, dada f : V → W linear e fixando
uma base A = {v 1 , . . . , v n } de V , cada elemento de V é combinação linear de A,
portanto, pela linearidade de f , fixando f (v 1 ), . . . , f (v n ), fica determinada a imagem
de qualquer vetor. Ademais, é possı́vel escolher as imagens f (v i ) livremente, pois se
obtém sempre uma função linear bem definida.
Lema 2.3.1. Sejam A = {v 1 , . . . , v n } uma base de V e B = {w1 , . . . , wn } ⊂ W
qualquer subconjunto. Existe uma única função linear f : V → W tal que f (v i ) = wi
para todo i entre 1 e n. Ademais, Im(f ) = hBi.
Demonstração. Seja v ∈ V . Sendo A uma base, pelo lema 1.6.6 existem
únicos λ1 , . . . , λn ∈ K tais que v = λi v i . Definimos f (v) := λi wi . Como função entre
conjuntos f está bem definida, por causa da unicidade dos coeficientes λ1 , . . . , λn .1
Vamos verificar que f é linear. Sejam u1 , u2 ∈ V . Para  = 1, 2, existem únicos
λ,1 , . . . , λ,n ∈ K tais que u = λi v i . Fixados µ1 , µ2 ∈ K, temos que µ1 u1 + µ2 u2 =
(µ1 λi1 + µ2 λi2 )v i . Portanto, aplicando a definição de f , temos que f (µ1 u1 + µ2 u2 ) =
(µ1 λi1 + µ2 λi2 )wi = µ1 (λi1 wi ) + µ2 (λj2 wj ) = µ1 f (u1 ) + µ2 f (u2 ), logo f é linear.
Só falta demonstrar que Im(f ) = hBi. Seja w ∈ Im(f ). Então existe v ∈ V
tal que f (v) = w. Como A é uma base, existem (únicos) λ1 , . . . , λn ∈ K tais que
v = λi v i , logo w = λi wi ∈ hBi. Isso demonstra que Im(f ) ⊂ hBi. Vamos demonstrar
a inclusão oposta. Seja w ∈ hBi. Isso significa que existem λ1 , . . . , λn ∈ K tais que
w = λi wi . Definindo v := λi v i , temos que f (v) = w, logo w ∈ Im(f ). Isso demonstra
que hBi ⊂ Im(f ), portanto vale a igualdade. 

No lema 2.3.1 não há condições a respeito da famı́lia B. O seguinte lema mostra
as propriedades de f dependendo das de B.
Lema 2.3.2. Sejam A = {v 1 , . . . , v n } uma base de V e B = {w1 , . . . , wn } ⊂ W .
Seja f : V → W a única função linear tal que f (v i ) = wi para todo i entre 1 e n,
conforme o enunciado do lema 2.3.1.
(1) f é injetora se, e somente se, B é uma famı́lia independente.
(2) f é sobrejetora se, e somente se, B gera W .
(3) f é bijetora se, e somente se, B é uma base de W .
1Mais precisamente, afirmar que f está bem definida significa afirmar que, fixado v ∈ V ,
está univocamente determinada a imagem f (v). De fato, como os coeficientes λ1 , . . . , λn , tais que
v = λi v i , são únicos, o vetor f (v) := λi wi é univocamente determinado por v.
2.3. BASES E FUNÇÕES LINEARES 65

Demonstração. (1) (⇒) Seja λi wi = 0. Então f (λi v i ) = 0, logo, sendo f


injetora, λi v i = 0. Como A é uma base de V , temos que λ1 = · · · = λn = 0,
portanto B é independente. (⇐) Seja f (v) = 0 e seja v = λi v i . Então λi wi = 0,
portanto, sendo B independente, temos que λ1 = · · · = λn = 0, ou seja, v = 0. Isso
demonstra que Ker(f ) = {0}, logo f é injetora. (2) (⇒) Seja w ∈ W . Como f é
sobrejetora, existe v ∈ V tal que f (v) = w. Seja v = λi v i . Então w = λi wi . Isso
demonstra que todo vetor de W é combinação linear de B, isto é, hBi = W . (⇐)
Seja w ∈ W . Como B gera W , existem λ1 , . . . , λn ∈ K tais que w = λi wi . Seja
v := λi v i . Então f (v) = w. Isso demonstra que todo vetor de W pertence à imagem
de f , ou seja, f é sobrejetora. (3) Segue imediatamente dos itens precedentes. 
Exercı́cio 2.3.3. Mostre que existe uma única função linear f : R3 → R4 tal que:
f (1, 1, 1) = (0, 2, 0, 0) f (1, 0, −1) = (0, 2, 1, 1) f (1, 0, 0) = (1, −3, 0, 0)
e escreva-a explicitamente. Estabeleça se f é injetora ou sobrejetora.
Resolução. Verifiquemos que A = {(1, 1, 1), (1, 0, −1), (1, 0, 0)} é uma base de R3 .
Isso implica que f existe única. Como se trata de uma famı́lia de três vetores, temos que
verificar que sejam independentes. Se α(1, 1, 1) + β(1, 0, −1) + γ(1, 0, 0) = (0, 0, 0), então,
pela segunda componente, α = 0. Portanto, pela terceira componente, β = 0. Logo γ = 0.
Para achar f explicitamente, escrevamos o genérico vetor (x, y, z) ∈ R3 como com-
binação linear dos vetores de A. Obviamente os coeficientes dependerão de x, y e z.
Seja (x, y, z) = α(1, 1, 1) + β(1, 0, −1) + γ(1, 0, 0). Pela segunda componente, α = y.
Pela terceira componente, β = y − z. Pela primeira, γ = x − 2y + z. Afinal obte-
mos (x, y, z) = y(1, 1, 1) + (y − z)(1, 0, −1) + (x − 2y + z)(1, 0, 0). Portanto, f (x, y, z) =
yf (1, 1, 1) + (y − z)f (1, 0, −1) + (x − 2y + z)(1, 0, 0) = y(0, 2, 0, 0) + (y − z)(0, 2, 1, 1) + (x −
2y + z)(1, −3, 0, 0) = (x − 2y + z, −3x + 10y − 5z, y − z, y − z).
f não pode ser sobrejetora, pois a famı́lia {(0, 2, 0, 0), (0, 2, 1, 1), (1, −3, 0, 0)} contém
três vetores, portanto não pode gerar R4 . Para verificar se é injetora, verifiquemos se é
uma famı́lia independente. Se α(0, 2, 0, 0) + β(0, 2, 1, 1) + γ(1, −3, 0, 0) = (0, 0, 0, 0), então,
pela primeira componente, γ = 0. Pela terceira, β = 0, logo α = 0. Isso demonstra que f
é injetora. ♦

No lema 2.3.1 consideramos uma base A do domı́nio e uma famı́lia genérica B


no contradomı́nio. O seguinte lema generaliza o 2.3.1, considerando uma famı́lia
genérica A também no domı́nio.
Lema 2.3.4. Sejam A = {v 1 , . . . , v k } ⊂ V e B = {w1 , . . . , wk } ⊂ W .
(1) Se A é independente, então existe uma aplicação linear f : V → W tal que
f (v i ) = wi para todo i entre 1 e n. Esta aplicação é única se, e somente
se, A é uma base.
(2) Em geral, existe f : V → W tal que f (v i ) = wi se, e somente se, vale a
seguinte condição: para todos λ1 , . . . , λk ∈ K, tais que λ1 v 1 +· · ·+λk v k = 0,
vale a identidade λ1 w1 +· · ·+λk wk = 0. Nesse caso, f é única se, e somente
se, hAi = V .
Demonstração. (1) Seja dim V = n ≥ k. Pelo teorema da base incom-
pleta, podemos completar A a uma base A0 = {v 1 , . . . , v k , v k+1 , . . . , v n }. Acres-
centamos a B uma famı́lia de n − k vetores, escolhidos livremente em W , obtendo
66 2. FUNÇÕES LINEARES E AFINS

B 0 = {w1 , . . . , wk , wk+1 , . . . , wn }. Pelo lema 2.3.1, existe uma única aplicação linear
f : V → W tal que f (v i ) = wi , para todo i entre 1 e n. Em particular, f satisfaz
a condição pedida. Para determinarmos f , tivemos que escolher livremente n − k
vetores de W , portanto f é única se, e somente se, n − k = 0, se, e somente se,
A é uma base de V . (2) (⇒) Seja λ1 v 1 + · · · + λk v k = 0. Então, sendo f linear,
f (λ1 v 1 +· · ·+λk v k ) = λ1 w1 +· · ·+λk wk = 0. (⇐) Pelo lema 1.6.4, podemos escolher
uma subfamı́lia independente de A que gera hAi. A menos da ordem, suponhamos
que A0 := {v 1 , . . . , v h }, com 1 ≤ h ≤ k, seja independente e que hA0 i = hAi. Pelo
item 1, existe uma função linear f : V → W tal que f (v i ) = wi para todo i entre 1
e h, a qual é única se, e somente se, A0 é uma base de V , se, e somente se, hAi = V .
Para i entre h+1 e k, temos que v i = λ1 v 1 +· · ·+λh v h , logo v i −λ1 v 1 −· · ·−λh v h = 0.
Por hipótese, wi − λ1 w1 − · · · − λh wh = 0, logo wi = λ1 w1 + · · · + λh wh . Sendo f
linear, temos que f (v i ) = wi . 
Em seguida analisaremos a estrutura do conjunto das funções lineares tais que
f (v i ) = wi para i = 1, . . . , k (v. lema 2.6.4 e corolário 2.6.5). No caso em que
{v 1 , . . . , v k } seja independente, ficará claro que (como pode-se imaginar facilmente),
se k cresce, o conjunto dessas funções se reduz, até conter só um elemento para
k = n.
Exercı́cio 2.3.5. Estabeleça para quais valores do parâmetro k ∈ R existe uma aplicação
linear f : R4 → R2 tal que:
f (0, 1, 1, 1) = (1, 2) f (k, 1, 2, 1) = (3, 0) f (0, 1, k, 1) = (1, 2).
Para quais valores de k é única?
Resolução. Observamos imediatamente que, se f existir, não é única para nenhum
valor de k, pois três vetores de R4 não podem gerar R4 .
Seja λ1 (0, 1, 1, 1)+λ2 (k, 1, 2, 1)+λ3 (0, 1, k, 1) = (0, 0, 0, 0). Obtemos o seguinte sistema
linear:
 
0 k 0 0  
1 1 1 0  (I, II, III) → 1 1 1 0

1 2 k
 1 2 k 0 II → II − I
0 (II, III, I)
0 k 0 0
1 1 1 0
   
1 1 1 0 1 1 1 0
0 1 k − 1 0 III → III − kII 0 1 k−1 0 .
0 k 0 0 0 0 k(1 − k) 0
Se k 6= 0, 1, os vetores dados de R4 são independentes, portanto f existe.
Seja k = 0. Então as soluções do sistema são dadas por λ3 = t, λ2 = t e λ1 = −2t.
Portanto, a combinação linear mais geral dos vetores dados, igual a 0, é −2t(0, 1, 1, 1) +
t(0, 1, 2, 1) + t(0, 1, k, 1) = (0, 0, 0, 0). Verifiquemos se esta relação linear é respeitada pelos
vetores do contra-domı́nio. Temos que −2t(1, 2) + t(3, 0) + t(1, 2) = t(2, −2), portanto não
existe f .
Enfim, seja k = 1. Então as soluções do sistema são dadas por λ3 = t, λ2 = 0
e λ1 = −t. Portanto, a combinação linear mais geral dos vetores dados, igual a 0, é
−t(0, 1, 1, 1) + t(0, 1, 1, 1) = (0, 0, 0, 0). Nesse caso −t(1, 2) + t(1, 2) = (0, 0), portanto
existe f .
2.4. ESTRUTURA LINEAR E COMPOSIÇÃO 67

Afinal, uma função linear que satisfaz o pedido existe para todo k 6= 0, mas nunca é
única. ♦

2.4. Estrutura linear e composição


Vamos mostrar que o conjunto das funções lineares entre dois espaços vetoriais
fixados possui ele mesmo uma estrutura natural de espaço vetorial.
Notação 2.4.1. Denotamos o conjunto das funções lineares (ou homomorfismos,
conforme a definição 2.2.5) de V a W por Hom(V, W ). ♦
2.4.1. Definição das operações. Vamos definir a soma e o produto externo
em Hom(V, W ) da seguinte maneira. Sejam f, g ∈ Hom(V, W ) e λ ∈ K:
• (f + g)(v) := f (v) + g(v) para todo v ∈ V ;
• (λf )(v) := λf (v) para todo v ∈ V .
Na definição de soma, o sinal ‘+’ entre f e g denota a soma em Hom(V, W ) a ser defi-
nida, enquanto o sinal ‘+’ entre f (v) e g(v) denota a soma em W . O mesmo vale para
o produto externo. Portanto, para sermos precisos, terı́amos que usar sı́mbolos dife-
rentes; todavia, é melhor não complicar demais a notação. Considerações análogas
valem para todos os enunciados a seguir.

2.4.2. Verificação. Vamos verificar que, dadas f, g ∈ Hom(V, W ) e λ ∈ K,


temos efetivamente que f + g ∈ Hom(V, W ) e λf ∈ Hom(V, W ). De fato, se v 1 , v 2 ∈
V e µ1 , µ2 ∈ K, então:
(a)
(f + g)(µ1 v 1 + µ2 v 2 ) = f (µ1 v 1 + µ2 v 2 ) + g(µ1 v 1 + µ2 v 2 )
(b)
= µ1 f (v 1 ) + µ2 f (v 2 ) + µ1 g(v 1 ) + µ2 g(v 2 )
(c)
= µ1 (f (v 1 + g(v 1 )) + µ2 (f (v 2 ) + g(v 2 ))
(d)
= µ1 (f + g)(v 1 ) + µ2 (f + g)(v 2 ).
Na igualdade (a) usamos a definição de f + g; na (b) usamos a linearidade de f e g
(que vale por hipótese), na (c) usamos os axiomas de espaço vetorial relativos a W ;
enfim, na (d) usamos novamente a definição de f + g. Analogamente:
(λf )(µ1 v 1 + µ2 v 2 ) = λf (µ1 v 1 + µ2 v 2 )
= λ(µ1 f (v 1 ) + µ2 f (v 2 ))
= µ1 (λf (v 1 )) + µ2 (λf (v 2 ))
= µ1 (λf )(v 1 ) + µ2 (λf )(v 2 ).
O leitor pode verificar que valem as propriedades (1)-(8) da definição de espaço
vetorial, portanto Hom(V, W ), com a soma e o produto externo que acabamos de
definir, é um espaço vetorial real. Em particular, o elemento neutro da soma é o
homomorfismo nulo f0 , definido por f0 (v) := 0 para todo v ∈ V ; ademais, o oposto
de f ∈ Hom(V, W ) é defindo por (−f )(v) := −(f (v)) para todo v ∈ V . Mostraremos
em seguida que, se V e W são finitamente gerados, então Hom(V, W ) é finitamente
68 2. FUNÇÕES LINEARES E AFINS

gerado e dim Hom(V, W ) = dim V · dim W . Mostraremos também como achar uma
base de Hom(V, W ) a partir de uma base de V e uma de W .

2.4.3. Composição. Vamos considerar a composição de duas funções lineares,


mostrando que é linear.
Lema 2.4.2. Sejam V, W, Z espaços vetoriais sobre K. Sejam f : V → W e
g : W → Z funções lineares. A composição g ◦ f : V → Z é linear.
Demonstração. Sejam v 1 , v 2 ∈ V e λ1 , λ2 ∈ K. Então:
g ◦ f (λ1 v 1 + λ2 v 2 ) = g(f (λ1 v 1 + λ2 v 2 ))
= g(λ1 f (v 1 ) + λ2 f (v 2 ))
= λ1 g(f (v 1 )) + λ2 g(f (v 2 ))
= λ1 g ◦ f (v 1 ) + λ2 g ◦ f (v 2 ). 
Vamos adiantar uma definição que será importante em seguida.
Definição 2.4.3. Sejam V, W, Z espaços vetoriais e seja f : V × W → Z uma
função. A função f é dita bilinear se for linear a respeito de ambas as entradas do
domı́nio, ou seja:
• f (λ1 v 1 + λ2 v 2 , w) = λ1 f (v 1 , w) + λ2 f (v 2 , w) para todos v 1 , v 2 ∈ V , w ∈ W
e λ1 , λ2 ∈ K;
• f (v, λ1 w1 + λ2 w2 ) = λ1 f (v, w1 ) + λ2 f (v, w2 ) para todos v ∈ V , w1 , w2 ∈ W
e λ1 , λ2 ∈ K. ♦
Pelo lema 2.4.2, a composição de funções induz uma função ◦ : Hom(V, W ) ×
Hom(W, Z) → Hom(V, Z). Verifiquemos que é bilinear.
Lema 2.4.4. Sejam V, W, Z espaços vetoriais. A composição:
◦ : Hom(V, W ) × Hom(W, Z) → Hom(V, Z)
é bilinear.
Demonstração. Sejam f1 , f2 ∈ Hom(V, W ), g ∈ Hom(W, Z) e λ1 , λ2 ∈ K.
Para todo v ∈ V , temos que (λ1 f1 +λ2 f2 )◦g(v) = (λ1 f1 +λ2 f2 )(g(v)) = λ1 f1 (g(v))+
λ2 f2 (g(v)) = λ1 (f1 ◦ g)(v) + λ2 (f2 ◦ g)(v), portanto (λ1 f1 + λ2 f2 ) ◦ g = λ1 (f1 ◦ g) +
λ2 (f2 ◦ g). Uma prova análoga vale a respeito de f ◦ (λ1 g1 + λ2 g2 ). 

2.4.4. Estrutura de K-álgebra. Se V = W , a composição se torna uma


função ◦ : Hom(V, V ) × Hom(V, V ) → Hom(V, V ). Isso introduz uma estrutura
algébrica a mais em Hom(V, V ).
Definição 2.4.5. Um espaço vetorial real V , com um produto:
?: V × V → V
é dito K-álgebra se o produto for bilinear. Se o produto for associativo, V é dito
K-álgebra associativa. ♦
2.5. ISOMORFISMOS 69

Por exemplo, o conjunto das matrizes quadradas M (n, n) é um espaço veto-


rial, que se torna uma K-álgebra associativa considerando o produto de matrizes.
Pelo lema 2.4.2, o espaço vetorial Hom(V, V ) se torna uma R-álgebra associativa
considerando a composição de funções lineares como produto.

2.5. Isomorfismos
Lembramos (v. def. 2.2.5) que um isomorfismo de V a W é uma função linear
bijetora f : V → W . Se V = W e f : V → V for um isomorfismo, então f é dito
também automorfismo de V .
Lema 2.5.1. Seja f : V → W um isomorfismo. A função inversa f −1 : W → V
é também um isomorfismo.
Demonstração. Claramente f −1 é bijetora, portanto só temos que provar que
é linear. Sejam w1 , w2 ∈ W e λ1 , λ2 ∈ K. Sendo f bijetora, existem únicos v 1 , v 2 ∈ V
tais que f (v 1 ) = w1 e f (v 2 ) = w2 . Como f é linear, temos que f (λ1 v 1 + λ2 v 2 ) =
λ1 w1 +λ2 w2 , portanto f −1 (λ1 w1 +λ2 w2 ) = λ1 v 1 +λ2 v 2 = λ1 f −1 (w1 )+λ2 f −1 (w2 ). 
Lema 2.5.2. Sejam f : V → W e g : W → Z isomorfismos. A composição
g ◦ f : V → Z é um isomorfismo.
Demonstração. A composição de duas funções bijetoras é bijetora, logo g ◦ f
é bijetora. O fato que seja linear segue do lema 2.4.2. 
Definição 2.5.3. Dois espaços vetoriais V e W são ditos isomorfos se existe
um isomorfismo f : V → W . Usamos a notação V ' W . ♦
A existência de um isomorfismo é uma relação de equivalência na classe dos
espaços vetoriais sobre K. De fato:
• é reflexiva, pois a identidade id : V → V é um isomorfismo;
• é simétrica por causa do lema 2.5.1;
• é transitiva por causa do lema 2.5.2.
Por isso, a classe dos espaços vetoriais sobre um corpo K fixado fica dividida em
classes de equivalência, sendo dois espaços equivalentes quando forem isomorfos.
Como para qualquer estrutura algébrica, a noção de isomorfismo é particularmente
relevante, pois o fato que dois espaços sejam isomorfismos significa que têm “a
mesma estrutura” (no grego antigo “isos” significa “igual” e “morphé” significa
“forma”). Podemos afirmar que dois espaços isomorfos coincidem a mesmo de “mu-
dar os nomes” dos elementos. De fato, um isomorfismo é uma bijeção que respeita
as operações em ambos os sentidos, portanto cada vetor do domı́nio fica identificado
com um vetor do contra-domı́nio, coerentemente com a soma e o produto externo.
Ademais, vale o seguinte resultado fundamental, especı́fico da teoria dos espaços
vetoriais.
Teorema 2.5.4. Sejam V e W finitamente gerados. Então V ' W se, e so-
mente se, dim V = dim W . Equivalentemente, se dim V = n, então V ' Kn .
70 2. FUNÇÕES LINEARES E AFINS

Demonstração. (⇒) Seja f : V → W um isomorfismo. Seja {a1 , . . . , an } uma


base de V . Então, pelo lema 2.3.2 item 3, temos que {f (a1 ), . . . , f (an )} é uma
base de W , logo dim W = n = dim V . (⇐) Seja dim V = dim W . Sejam A =
{a1 , . . . , an } uma base de V e B = {b1 , . . . , bn } uma base de W . Seja f a única
função linear tal que f (ai ) = bi para todo i entre 1 e n. Pelo lema 2.3.2 item 3, f é
um isomorfismo. 
O teorema 2.5.4 é muito significativo, pois mostra que, para espaços finitamente
gerados, a dimensão é o único invariante por isomorfismo. Isso significa que, a menos
de isomorfismo, estudar um espaço vetorial finitamente gerado significa estudar Kn .
Observamos que o lema podia ser demonstrado equivalentemente mostrando que
uma base A de V determina um isomorfismo entre V e Kn , que identifica A com a
base canônica. Por isso, vamos usar a seguinte notação.
Notação 2.5.5. Seja A = {a1 , . . . , an }. Fixando a base canônica C = {e1 , . . . , en }
de Kn , denotamos por
'
ΦA : V −→ Kn
o isomorfismo tal que ai 7→ ei . ♦
Exemplo 2.5.6. O espaço vetorial M (n, m; K) é isomorfo a Knm . ♦
Exemplo 2.5.7. O subespaço vetorial Kn [x] de K[x], formado pelos polinômio de grau
menor ou igual a n, é isomorfo a Kn+1 . ♦
Exemplo 2.5.8. Voltemos aos exemplos 1.2.3, 1.2.4 e 1.2.5. No exemplo 1.2.4, o
espaço envolvido, ou seja, M (2, 3; R), é finitamente gerado e é isomorfo a R6 . No exemplo
1.2.3, o espaço dos polinômios não é finitamente gerado, porém os polinômios envolvidos
pertencem ao subespaço finitamente gerado dos polinômios de grau menor ou igual a 3, o
qual é isomorfo a R4 . Enfim, no exemplo 1.2.5, o espaço não é finitamente gerado. As três
funções envolvidas pertencem ao subespaço que geram, o qual, obviamente, é finitamente
gerado. Todavia, para achar um isomorfismo com R3 , temos que provar que as funções
são independentes, mas a dificuldade desse problema é a mesma do exemplo 1.2.5 com a
técnica que usamos. Por isso, em geral, quando há um isomorfismo evidente entre o espaço
(ou subespaço) envolvido e Kn , qualquer problema de combinação linear ou independência
linear se reconduz a um sistema linear. Quando o isomorfismo não for evidente, pode ser
necessário usar uma técnica diferente. Também, pode ser necessária uma técnica diferente
para achar o isomorfismo e continuar com um sistema linear. ♦

2.6. Matriz representativa


Vamos mostrar que, fixando uma base de V e uma de W , uma função linear de
V a W pode ser identificada com uma matriz adequada.
Definição 2.6.1. Sejam f : V → W uma função linear, A = {a1 , . . . , an } uma
base de V e B = {b1 , . . . , bm } uma base de W . Denotamos por f (A) a famı́lia
f (A) := {f (a1 ), . . . , f (an )} ⊂ W . A matriz µ(B, f (A)) ∈ M (m, n; K), conforme a
notação da seção 1.8.2, é dita matriz representativa de f em relação às bases A e B.
Se denota também por µAB (f ). ♦
2.6. MATRIZ REPRESENTATIVA 71

Isso significa que a coluna i-ésima de µAB (f ) contém os coeficientes de f (ai )


como combinação linear de B. Explicitamente, se µAB (f ) = [xij ]:
f (a1 ) = x11 b1 + · · · + xm1 bm
.. ..
. .
f (an ) = x1n b1 + · · · + xmn bm .
Usando a notação de Einsten, introduzida na seção 0.8, temos:
(16) f (ai ) = xj i bj .
Observamos que o número de linhas de µAB (f ) é a dimensão do contra-domı́nio W ,
enquanto o número de colunas é a dimensão do domı́nio V .
2.6.1. Matriz representativa e estrutura linear. Fixadas as bases A e B,
a função linear f determina univocamente a matriz µAB (f ), pois os coeficientes de
f (ai ) a respeito da base B são únicos. Reciprocamente, pelo lema 2.3.1, fixadas as
bases A e B, as entradas xij de µAB (f ) determinam univocamente f , pois determi-
nam univocamente as imagens dos elementos da base A (isto é, f (A)). Portanto,
as bases A e B definem uma bijeção entre Hom(V, W ) e M (m, n; K), que associa à
função f a matriz µAB (f ). O seguinte teorema mostra que não se trata somente de
uma bijeção.
Teorema 2.6.2. Sejam V e W finitamente gerados e sejam n = dim V e m =
dim W . Sejam A uma base de V e B uma base de W . A função:
µAB : Hom(V, W ) → M (m, n; K)
f 7→ µAB (f )
é um isomorfismo de espaços vetoriais.
Demonstração. Já mostramos que µAB é uma bijeção, portanto só temos
que provar que é linear. Sejam f, g ∈ Hom(V, W ) e λ, ν ∈ K. Ademais, sejam
µAB (f ) = [xij ], µAB (g) = [yij ] e µAB (λf + νg) = [zij ]. Temos que, para i entre 1 e n:
(λf + νg)(ai ) = λf (ai ) + νg(ai ) = λxj i bj + νy li bl = (λxj i + νy ji )bj .
Isso demonstra que z ji = λxj i + νy ji , logo µAB (λf + νg) = λµAB (f ) + νµAB (g). 
Corolário 2.6.3. Sejam V e W finitamente gerados. Então Hom(V, W ) é
finitamente gerado e dim Hom(V, W ) = dim V · dim W .
Demonstração. Sejam dim V = n e dim W = m. Pelo isomorfismo µAB , defi-
nido a partir de uma base A de V e uma base B de W , temos que dim Hom(V, W ) =
dim M (m, n; K) = mn. 
Enfim, podemos também completar o lema 2.3.4 da seguinte maneira.
Lema 2.6.4. Sejam V e W finitamente gerados e sejam n = dim V e m = dim W .
Sejam A = {v 1 , . . . , v k } ⊂ V uma famı́lia independente e B = {w1 , . . . , wk } ⊂ W
uma famı́lia qualquer. O conjunto das funções lineares f : V → W tais que f (v i ) =
wi é um subespaço afim de Hom(V, W ) de dimensão m(n − k).
72 2. FUNÇÕES LINEARES E AFINS

Demonstração. Seja A ⊂ Hom(V, W ) o conjunto das funções procuradas.


Pelo lema 2.3.4 existe f0 ∈ A. É claro que A − f0 = {f ∈ Hom(V, W ) : f (v 1 ) =
· · · = f (v k ) = 0}, que é um subespaço vetorial, pois, para f, g ∈ A − f0 e λ, µ ∈ K,
temos (λf + µg)(v i ) = λf (v i ) + µg(v i ) = λ0 + µ0 = 0, logo A é afim. Vamos
calcular a dimensão de A − f0 . Completemos A a uma base A0 , acrescentando os
vetores v k+1 , . . . , v n . As imagens de v k+1 , . . . , v n através de f são livres, portanto,
escolhendo uma base B de W , as colunas k+1, . . . , n da matriz µA0 B (f ) têm entradas
livres. Logo, a imagem de A − f0 através do isomorfismo µA0 B é um subespaço de
dimensão m(n − k) de M (m, n). 
Corolário 2.6.5. Sejam V e W finitamente gerados e sejam n = dim V e
m = dim W . Sejam A = {v 1 , . . . , v k } ⊂ V e B = {w1 , . . . , wk } ⊂ W duas famı́lias
quaisquer. O conjunto das funções lineares f : V → W tais que f (v i ) = wi , se não
for vazio, é um subespaço afim de Hom(V, W ) de dimensão m(n − dimhAi).
Demonstração. Seja, a menos da ordem, {v 1 , . . . , v h } uma base de hAi, sendo
1 ≤ h ≤ k. Então, como mostra a prova do lema 2.3.4, temos que f (v i ) = wi para
todo i entre 1 e k se, e somente se, f (v i ) = wi para todo i entre 1 e h. Portanto,
pelo lema 2.6.4, trata-se de um subespaço afim de dimensão m(n − h). 

2.6.2. Matriz representativa de um endomorfismo. Quando V = W , ou


seja, quando f : V → V é um endomorfismo, podemos escolher a mesma base A no
domı́nio e no contra-domı́nio. Nesse caso usamos a seguinte notação:
(17) µA (f ) := µAA (f ).
Definição 2.6.6. Sejam f : V → V um endomorfismo e A = {a1 , . . . , an } uma
base de V . A matriz (quadrada) µA (f ) ∈ M (n; K) é dita matriz representativa de
f a respeito de A. ♦
Exercı́cio 2.6.7. Seja f : R3 → R3 a aplicação linear:
f (x, y, z) = (x − y + 2z, y + z, 2x − 3y + 3z).
Encontre a matriz representativa de f a respeito da base canônica de R3 e a matriz repre-
sentativa de f a respeito da base A = {(1, 1, 0), (1, −1, 1), (0, 1, −1)}.
Resolução. A matriz representativa a respeito da base canônica é simplesmente a
matriz dos coeficientes de f a respeito de x, y e z, ou seja:
 
1 −1 2
0 1 1 .
2 −3 3
De fato, f (1, 0, 0) = (1, 0, 2) = 1(1, 0, 0) + 0(0, 1, 0) + 2(0, 0, 1), logo a primeira coluna é
(1, 0, 2). O mesmo vale para as demais colunas.
Consideremos a base A. Temos que f (1, 1, 0) = (0, 1, −1). Seja (0, 1, −1) = α(1, 1, 0)+
β(1, −1, 1) + γ(0, 1, −1). É claro que α = β = 0 e γ = 1, logo a primeira coluna é (0, 0, 1).
Ademais, f (1, −1, 1) = (4, 0, 8). Seja (4, 0, 8) = α(1, 1, 0) + β(1, −1, 1) + γ(0, 1, −1). Resol-
vendo o sistema obtemos α = 8, β = −4 e γ = −12, logo a segunda coluna é (8, −4, −12).
Enfim, f (0, 1, −1) = (−3, 0, −6). Seja (−3, 0, −6) = α(1, 1, 0) + β(1, −1, 1) + γ(0, 1, −1).
2.6. MATRIZ REPRESENTATIVA 73

Resolvendo o sistema obtemos α = −6, β = 3 e γ = 9, logo a segunda coluna é (−6, 3, 9).


Afinal:
 
0 8 −6
µA (f ) = 0 −4 3 .
1 −12 9 ♦

2.6.3. Matriz representativa e coordenadas. Consideremos uma função li-


near f : Kn → Km . Vimos que existe uma única matriz A ∈ M (m, n; K) tal que
f (v) = Av. É imediato verificar que A é a matriz representativa de fA em relação
às bases canônicas de Kn e Km (v. exercı́cio 2.5 da seção 2.6.9). O seguinte lema
generaliza esta observação.
Lema 2.6.8. Sejam A = {a1 , . . . , an } uma base de V e B = {b1 , . . . , bm } uma
base de W . Sejam v = λi ai e w = µj bj . Se A := µAB (f ) = [xij ], temos que f (v) = w
se, e somente se:
λ1 µ1
   

(18) A  ..  =  ...  .
.
λn µm
Demonstração – Método I. Como v = λi ai , temos que f (v) = λi f (ai ),
portanto a fórmula (18) coincide com a (10) no caso da matriz µ(B, f (A)). 
Demonstração – Método II. Temos que f (v) = λi f (ai ) = λi xj i bj , logo
f (v) = w se, e somente se, µj = xj i λi , o que equivale à fórmula (18). 
Se V = Kn , W = Km e A e B forem as bases canônicas, então o lema 2.6.8
equivale ao fato que A seja a matriz representativa de fA , como afirmamos antes
do enunciado. A partir desta observação, podemos reformular o lema da seguinte
maneira. Consideremos os isomorfismos ΦA : V → Kn e ΦB : W → Km , conforme
a notação 2.5.5, e a função linear fµAB (f ) : Kn → Km , definida pela matriz µAB (f )
conforme a definição (14). O seguinte diagrama comuta:
f
(19) V / W
ΦA ΦB
 fµAB (f ) 
Kn / Km .
Isso significa que, como uma base A fixada identifica um espaço vetorial genérico V
com Kn , analogamente duas bases A e B fixadas identificam uma função linear de
V a W com a multiplicação por uma matriz, a qual atua entre Kn e Km .
2.6.4. Composição. Vamos analisar o comportamento da matriz representa-
tiva a respeito da composição de funções.
Lema 2.6.9. Sejam f : V → W e g : W → Z funções lineares. Sejam A uma
base de V , B uma base de W e C uma base de Z. Temos que:
µAC (g ◦ f ) = µBC (g) · µAB (f ).
74 2. FUNÇÕES LINEARES E AFINS

Demonstração – Método I. Sejam X = µAB (f ) e Y = µBC (g). Temos que


f (A) = B · X e g(B) = C · Y . Sendo g linear, g(f (A)) = g(B) · X = (C · Y ) · X =
C ·(Y X). A última igualdade segue do lema 1.8.1 e implica que µAC (g◦f ) = Y X. 
Demonstração – Método II. Sejam A = {a1 , . . . , an }, B = {b1 , . . . , bm } e
C = {c1 , . . . , cl }. Sejam X := [xij ] = µAB (f ), Y := [yij ] = µBC (g) e Y X = [zij ].
Temos que:
g ◦ f (ai ) = g(xj i bj ) = xj i g(bj ) = xj i y kj ck = (y kj xj i )ck = z ki ck .
Isso demonstra que µAC (g ◦ f ) = [zik ] = Y X. 
É importante ressaltar que, no lema 2.6.9, a base B de W é a mesma para o
contra-domı́nio de f e para o domı́nio de g. Se escolhêssemos duas bases diferentes, a
matriz representativa de g◦f seria diferente do produto entre a matriz representativa
de g e a de f .
2.6.5. Matriz representativa e propriedades da função. Como a matriz
representativa µAB (f ) é um caso particular de matriz de mudança de uma base a
uma famı́lia, podemos aplicar o lema 1.8.5, relacionando as propriedades de f (A)
às de µAB (f ). Por causa do lema 2.3.2, as propriedades de f (A) determinam as
correspondentes de f , portanto obtemos o seguinte lema.
Lema 2.6.10. Seja f : V → W uma função linear. Sejam A = {a1 , . . . , an } uma
base de V e B = {b1 , . . . , bm } uma base de W .
(1) A função f é injetora se, e somente se, a famı́lia das colunas de µAB (f ) é
independente em Km .
(2) A função f é sobrejetora se, e somente se, a famı́lia das colunas de µAB (f )
gera Km .
(3) A função f é bijetora se, e somente se, a famı́lia das colunas de µAB (f ) é
uma base de Km (em particular, m = n).
(4) A função f é bijetora se, e somente se, m = n e µAB (f ) é invertı́vel. Nesse
caso, µBA (f −1 ) = µAB (f )−1 .
Demonstração. Como µAB (f ) = µ(B, f (A)), todos os enunciados seguem
imediatamente do lema 1.8.5 (substituindo A por B e B por f (A)) e do lema 2.3.2
(substituindo B por f (A)). 
Demonstração de (4) – Método II. Seja X = µAB (f ). (⇒) Seja Y =
µBA (f −1 ). Então, pelo lema 2.6.9, temos Y X = In e XY = In , logo Y = X −1 .
Sejam idV : V → V e idW : W → W as funções idênticas. Pelo lema 2.6.9, como
f −1 ◦ f = idV e f ◦ f −1 = idW , temos que In = µA (idV ) = µBA (f −1 ) · µAB (f )
e In = µB (idW ) = µAB (f ) · µBA (f −1 ). Logo µBA (f −1 ) = (µAB (f ))−1 . (⇐) Seja
g : W → V a aplicação linear tal que µBA (g) = X −1 . Então, pelo lema 2.6.9,
g ◦ f = idV e f ◦ g = idW , logo g = f −1 . 
Corolário 2.6.11. Uma matriz A ∈ M (n; K) é invertı́vel se, e somente se, a
famı́lia das colunas de A é independente em Kn , se, e somente se, a famı́lia das
linhas de A é independente em Kn .
2.6. MATRIZ REPRESENTATIVA 75

Demonstração. Sejam C a base canônica de Kn e seja fA : Kn → Kn , x 7→ Ax.


Temos que A = µC (fA ), portanto, pelo lema 2.6.10 itens (3) e (4), A é invertı́vel
se, e somente se, a famı́lia das colunas de A é uma base de Kn . Como a famı́lia
contém n elementos, isso equivale ao fato que seja independente. Enfim, é imediato
verificar que AT é invertı́vel se, e somente se, A é invertı́vel, sendo, nesse caso,
(AT )−1 = (A−1 )T . Como as linhas de A são as colunas de AT , obtemos a tese. 

2.6.6. Endomorfismos e estrutura de K-álgebra. No caso V = W , mos-


tramos que Hom(V, V ) tem uma estrutura de K-álgebra associativa. O mesmo vale
em relação a M (n; K) para todo n ∈ N.
Definição 2.6.12. Sejam V e W duas K-álgebras. Uma função linear f : V →
W é dita homomorfismo de K-álgebras se f (v ◦ w) = f (v) ◦ f (w). Se f for bijetora,
é dita isomorfismo de K-álgebras. ♦
Corolário 2.6.13. Seja V finitamente gerado e seja n = dim V . Seja A uma
base de V . A função:
µA : Hom(V, V ) → M (n; K)
f 7→ µA (f )
é um isomorfismo de K-álgebras.
Demonstração. Pelo teorema 2.6.2, µA é um isomorfismo de espaços vetoriais.
Pelo lema 2.6.9, é um isomorfismo de K-álgebras. 

2.6.7. Matriz representativa vs matriz de mudança de base. Sejam A =


{a1 , . . . , an } uma base de V e A0 = {w1 , . . . , wn } uma famı́lia de vetores de V . Pelo
lema 2.3.1, existe um único endomorfismo f : V → V tal que f (A) = A0 . É fácil
verificar, a partir da definição, que µ(A, A0 ) = µA (f ). De fato, µA (f ) = µAA (f ) =
µ(A, f (A)) = µ(A, A0 ). Isso significa que podemos interpretar a mesma matriz
de dois pontos de vista equivalentes: do ponto de vista passivo, pensamos que os
vetores de V não se mexam e que a matriz µ(A, A0 ) represente A0 em função da
base A; do ponto de vista ativo pensamos em uma função linear que manda A em
A0 , representada, a respeito de A, pela matriz µA (f ). Por exemplo, os corolários
1.8.6 e 2.6.11 provam o mesmo enunciado considerando a matriz A do ponto de vista
respetivamente passivo e ativo. Contudo, observamos que, para que f fique definido,
o número de elementos de A0 tem que coincidir com o de A, o que não é necessário
para definir µ(A, A0 ).
Se também A0 for uma base, a matriz é invertı́vel e f é um automorfismo. Nesse
caso temos mais uma interpretação equivalente. De fato, sejam A e A0 duas bases
de V . Então:
(20) µ(A, A0 ) = µA0 A (idV ),
ou seja, a matriz de mudança de base de A a A0 é também a matriz representativa
da identidade de V a respeito das bases A0 no domı́nio e A no contra-domı́nio.
76 2. FUNÇÕES LINEARES E AFINS

2.6.8. Mudança de base na matriz representativa. Podemos formular a


seguinte pergunta: qual é a relação entre duas matrizes que representam a mesma
função linear a respeito de bases diferentes do domı́nio e do contra-domı́nio?
Vamos considerar uma função linear f : V → W . Sejam A e A0 duas bases
de V e B e B 0 duas bases de W . Vamos ver qual é a relação entre A = µAB (f )
e B = µA0 B0 (f ). Consideremos as matrizes de mudança de base C = µ(A, A0 ) e
D = µ(B, B 0 ). As matrizes C e D são invertı́veis pelo lema 1.8.4. Sejam idV : V → V
e idW : W → W as funções idênticas. Obviamente f = idW ◦ f ◦ idV , portanto, pelo
lema 2.6.9, temos que:
µA0 B0 (f ) = µBB0 (idW ) · µAB (f ) · µA0 A (idV ).
Pela fórmula (20), temos µA0 A (idW ) = C e µB0 B (idW ) = D, logo:
(21) B = D−1 AC.
Provemos a fórmula (21) com o cálculo direto. Sejam A = {a1 , . . . , an }, A0 =
{a01 , . . . , a0n }, B = {b1 , . . . , bm } e B 0 = {b01 , . . . , b0m }. Sejam A = [xij ] ∈ M (m, n; K),
B = [yij ] ∈ M (m, n; K), C = [zij ] ∈ M (n; K) e D = [wij ] ∈ M (m; K). Por definição:
(22) a0i = z ji aj b0i = wji bj .
Apliquemos f aos elementos de A0 e escrevamos o resultado em função dos elementos
de B. Podemos fazê-lo de duas maneiras equivalentes:
f (a0i ) = y ji b0j = y ji wkj bk .
f (a0i ) = f (z ji aj ) = z ji f (aj ) = z ji xkj bk .
Por isso obtemos:
y ji wkj bk = z ji xkj bk .
Sendo B uma base, temos que y ji wkj = z ji xkj para todos i e k fixados, logo DB =
AC. Equivalentemente, B = D−1 AC.
Definição 2.6.14. Chamamos duas matrizes A, B ∈ M (m, n; K) de µ-equivalentes
se, e somente se, existem uma matriz invertı́vel C ∈ M (n; K) e uma matriz invertı́vel
D ∈ M (m; K) tais que B = D−1 AC. ♦
É fácil verificar que a relação de µ-equivalência é uma relação de equivalência em
M (m, n; K). Mostraremos no capı́tulo 7 (observação 7.1.1, mas poderı́amos mostrá-
lo já no capı́tulo 3) que duas matrizes são µ-equivalentes se, e somente se, têm o
mesmo posto, portanto não se trata de uma relação particularmente interessante. O
seguinte teorema responde à pergunta inicial desta seção, ou seja, qual é a relação
entre duas matrizes que representam a mesma função linear a respeito de bases
diferentes do domı́nio e do contra-domı́nio.
Teorema 2.6.15. Sejam A, B ∈ M (m, n; K). Então existem:
• dois espaço vetoriais finitamente gerados V e W ;
• uma função linear f : V → W ;
• duas bases A, A0 de V e duas bases B, B 0 de W
tais que µAB (f ) = A e µA0 B0 (f ) = B se, e somente se, A e B são µ-equivalentes.
2.6. MATRIZ REPRESENTATIVA 77

Demonstração. (⇒) Trata-se da fórmula (21). (⇐) Sejam C e D matrizes


invertı́veis tais que B = D−1 AC. Sejam V = Kn , W = Km e A e B as bases
canônicas. Seja f (v) := Av. Então µAB (f ) = A. Ademais, sejam A0 = A · C e
B 0 = B · D. Pela fórmula (21), temos que µA0 B0 (f ) = B. 

Queremos deixar claro que duas matrizes µ-equivalentes podem representar a


mesma função linear, mas isso não acontece para qualquer escolha das bases. Em
particular, têm que valer as relações (22). Sem impor estas relações, µAB (f ) e
µA0 B0 (g) podem ser µ-equivalentes, ou até iguais, mesmo se f 6= g.
Consideremos agora um endomorfismo f : V → V . Nesse caso, podemos escolher
a mesma base para o domı́nio e para o contra-domı́nio. Portanto, nos perguntamos
qual é a relação entre duas matrizes que representam o mesmo endomorfismo a
respeito de duas bases diferentes. Sejam A e A0 duas bases de V . Sejam A = µA (f ),
B = µA0 (f ) e C = µ(A, A0 ). Trata-se de um caso particular das condições (22),
para W = V , B = A e B 0 = A0 . Logo D = C. Portanto, a fórmula (21), nesse caso
particular, se torna:
(23) B = C −1 AC.
Definição 2.6.16. Duas matrizes A, B ∈ M (n; K) são ditas semelhantes se,
e somente se, existe uma matriz invertı́vel C ∈ M (n; K) tal que B = C −1 AC.
Também se diz que A e B são conjugadas através de C. ♦

É fácil verificar que a relação de semelhança é uma relação de equivalência em


M (n; K). É claro que duas matrizes semelhantes são também µ-equivalentes, mas
não vale a volta. A relação de semelhança é bem mais forte que a de µ-equivalência.
Teorema 2.6.17. Sejam A, B ∈ M (n; K). Então existem:
• um espaço vetorial finitamente gerado V ;
• um endomorfismo f : V → V ;
• duas bases A e A0 de V
tais que µA (f ) = A e µA0 (f ) = B se, e somente se, A e B são semelhantes.
Demonstração. Análoga à do teorema 2.6.15. 
Exercı́cio 2.6.18. Considerando a aplicação linear e as bases do exemplo 2.6.7, en-
contre a matriz representativa a respeito da base A a partir da matriz representativa em
relação à base canônica, usando matriz de mudança de base.

Resolução. Seja C a base canônica de R3 . A matriz de mudança de base C é a matriz


representativa, a respeito de C, do automorfismo de R3 que manda C em A. Portanto, as
colunas de C são os vetores da base A. Logo obtemos:
 −1   
1 1 0 1 −1 2 1 1 0
µA (f ) = 1 −1 1  0 1 1 1 −1 1  .
0 1 −1 2 −3 3 0 1 −1
O leitor pode verificar que se obtém a mesma matriz do exemplo 2.6.7. ♦
78 2. FUNÇÕES LINEARES E AFINS

2.6.9. Exercı́cios.
2.5. Demonstre que uma matriz A ∈ M (m, n; K) e a matriz representativa da função
linear fA : Kn → Km , v → Av, em relação às bases canônicas de Kn e Km .

2.7. Funções multilineares


Por enquanto consideramos funções lineares de um espaço vetorial real a um
outro. Agora consideramos funções do produto cartesiano de n espaços vetoriais
a outro espaço vetorial, pedindo que que sejam lineares em cada componente do
domı́nio. Vamos começar pelo caso n = 2.
Definição 2.7.1. Sejam V , W e Z espaços vetoriais reais. Uma função f : V ×
W → Z é dita bilinear se, e somente se, valem as duas seguintes condições:
• f (λ1 v 1 + λ2 v 2 , w) = λ1 f (v 1 , w) + λ2 f (v 2 , w) para todos v 1 , v 2 ∈ V , w ∈ W
e λ1 , λ2 ∈ R;
• f (v, µ1 w1 + µ2 w2 ) = µ1 f (v, w1 ) + λ2 f (v, w2 ) para todos v ∈ V , w1 , w2 ∈ W
e µ1 , µ2 ∈ R. ♦
Dada uma função f : V × W → Z, para todo v ∈ V fica definida a seguinte
função:
fv : W → Z
w 7→ f (v, w).
Analogamente, para todo w ∈ W fica definida a seguinte função:
fw : V → Z
v 7→ f (v, w).
A definição 2.7.1 afirma que f é bilinear se, e somente se, fv e fw são lineares para
todos v ∈ V e w ∈ W .
Exercı́cio 2.7.2. Demonstre que a seguinte função é bilinear:
f : R2 × R3 → R2
 
  y1  
x1   x1 y3 + x2 y2
, y2 7→ .
x2 x1 y1 + x2 y1 + x3 y2
y3
Resolução. Temos que:
     
   0  y1  0
 y1
x x λx1 + µx1  
f λ 1 + µ 10 , y2  = f  , y2
x2 x2 λx2 + µx02
y3 y3

Exercı́cio 2.7.3. Demonstre que a seguinte função não é bilinear:


f : R2 × R2 → R2
     
x1 y x 1 y1
, 1 7→ .
x2 y2 x 1 y1 + y2
2.8. FUNÇÕES AFINS 79

Exercı́cio 2.7.4. Demonstre que a função p : M (n, m; K) × M (m, r; K) → M (n, r),


(A, B) 7→ AB, é bilinear.
Exercı́cio 2.7.5. Demonstre que a função p : K[x] × K[x] → K[x], (p(x), q(x)) 7→
p(x)q(x), é bilinear.
Observação 2.7.6. O fato que uma função f : V × W → Z seja bilinear não é
equivalente ao fato que a mesma função f : V ⊕ W → Z seja linear. De fato, ♦

2.8. Funções afins


Definição 2.8.1. Sejam V e W espaços vetoriais reais. Uma função f : V → W
é dita afim se existem um vetor w0 ∈ W e uma aplicação linear f˜: V → W tais que:
(24) f (v) = f˜(v) + w . 0 ♦
Por exemplo, se W = V e v 0 ∈ V for um vetor fixado, a translação f (v) := v +v 0
é uma função afim, sendo f˜ = idV . Em geral, uma função afim f : V → W é a
composição entre uma função linear f˜: V → W e uma translação w 7→ w+w0 em W .
Poderı́amos também compor uma translação em V , da forma v 7→ v + v 0 , com uma
função linear f˜: V → W : nesse caso obtemos a função afim f (v) = f˜(v) + f˜(v 0 ), a
qual é um caso particular de (24), para w0 ∈ Im(f˜). Também uma função constante
f (v) = w0 é afim, sendo f˜ = 0.
Observações 2.8.2.
• A função f determina univocamente f˜ e w0 em (24), pois w0 = f (0) e
f˜(v) = f (v) − f (0).
• Uma função linear é afim, sendo w0 = 0.
• Uma função afim é linear se, e somente se, f (0) = 0. Nesse caso f = f˜.

Se f : V → W for uma função afim e A ⊂ V e B ⊂ W forem subconjuntos,
podemos definir a imagem f (A) ⊂ W e a imagem inversa f −1 (B) ⊂ V , dando uma
definição análoga à 2.2.10.
Lema 2.8.3. Seja f : V → W uma função linear.
• Se A ⊂ V for um subespaço afim, então f (A) ⊂ W é um subespaço afim.
• Se B ⊂ W for um subespaço afim, então f −1 (B) ⊂ V , se não for vazio, é
um subespaço afim.
Demonstração. (1) Seja A = v 0 + V 0 . Então f (A) = f (v 0 ) + f (V 0 ) = f (v 0 ) +
f (0) + f˜(V 0 ). Como f˜ é linear, f˜(V 0 ) é um subespaço vetorial, logo f (A) é afim.
(2) Seja v 0 ∈ V tal que f (v 0 ) ∈ B. Então B = f (v 0 ) + W 0 . Temos que f (v) ∈ B
se, e somente se, f (v) = f (v 0 ) + w0 , com w0 ∈ W 0 , se, e somente se, f˜(v) + f (0) =
f˜(v 0 )+f (0)+w0 , se, e somente se, f˜(v −v 0 ) = w0 . Portanto, f −1 (B) = v 0 + f˜−1 (W 0 ).
Como f˜ é linear, f˜−1 (W 0 ) é um subespaço vetorial, portanto f −1 (B) é afim. 
Isso mostra que uma função afim manda subespaços afins em subespaços afins e
vice-versa. Em particular, se f : V → W for afim, então Im(f ) é um subespaço afim,
80 2. FUNÇÕES LINEARES E AFINS

sendo igual a f (V ). Poderı́amos também definir Ker(f ) := f −1 ({0}). Nesse caso


Ker(f ) pode ser vazio ou um subespaço afim. Todavia, esta noção não é particu-
larmente significativa. De fato, o ambiente natural para estudar as funções afins (e
os subespaços afins) são os espaços afins, não os espaços vetoriais. Aprofundaremos
esse assunto no vol. III.
Para mostrar que a contra-imagem de um subespaço afim pode ser vazia, é
suficiente considerar uma função constante f : V → W , definida por f (v) = w0 ,
sendo w0 ∈ W fixado. Cada ponto é um subespaço afim de dimensão 0. Se w ∈
W \ {w0 }, então f −1 ({w}) = ∅.
Definição 2.8.4. Denotamos por Af(V, W ) o conjunto das funções afins de V
a W. ♦
Mostremos que Af(V, W ) tem uma estrutura natural de espaço vetorial. Defini-
mos a soma e o produto externo como fizemos para Hom(V, W ), ou seja, (f +g)(v) :=
f (v) + g(v) e (λf )(v) := λf (v). Temos que:
(f + g)(v) = (f˜ + g̃)(v) + (f + g)(0) (λf )(v) = (λf˜)(v) + (λf )(0).
Como f˜ + g̃ e λf˜ são lineares, f + g e λf são afins.
Observações 2.8.5.
• Hom(V, W ) ⊂ Af(V, W ) é um subespaço vetorial.
• Seja w0 ∈ W . O subconjunto de Af(V, W ), formado pelas funções afins tais
que f (0) = w0 , é um subespaço afim de Af(V, W ), cujo subespaço direção
é Hom(V, W ). Para w0 = 0, esse subespaço afim coincide com Hom(V, W ).

Lema 2.8.6. Sejam f : V → W e g : W → Z afins. Então g ◦ f : V → Z é afim.
Demonstração. Temos que g ◦ f (v) = g̃(f (v)) + g(0) = g̃(f˜(v)) + g̃(f (0)) +
g(0) = g̃ ◦ f˜(v) + g ◦ f (0). Como g̃ ◦ f˜ é linear, temos a tese. 
Lema 2.8.7. Sejam V, W, Z espaços vetoriais. A composição:
◦ : Af(V, W ) × Af(W, Z) → Af(V, Z)
é bilinear.
Demonstração. Idêntica à do lema 2.4.4. 
Se V = W , a composição se torna uma função ◦ : Af(V, V )×Af(V, V ) → Af(V, V ).
Pelo lema 2.4.2, o espaço vetorial Af(V, V ) se torna uma K-álgebra associativa con-
siderando a composição de funções afins como produto. O espaço Hom(V, V ) é uma
sub-K-álgebra.

2.9. Soma direta


Esta seção e as seguintes completam o capı́tulo 1, mas ficam bem mais claras
conhecendo a teoria das funções lineares, portanto é mais natural para o leitor
estudá-las como parte do presente capı́tulo.
2.9. SOMA DIRETA 81

Definição 2.9.1. Sejam V e W dois espaços vetoriais. Definimos o espaço


vetorial V ⊕ W , dito soma direta de V e W , da seguinte maneira:
• como conjunto, V ⊕ W coincide com o produto cartesiano V × W ;
• a soma é definida por (v 1 , w1 ) + (v 2 , w2 ) = (v 1 + v 2 , w1 + w2 );
• o produto externo é definido por λ(v, w) = (λv, λw). ♦
É fácil verificar que se trata de um espaço vetorial, cujo elemento neutro é o
vetor (0, 0). Além disso, dado (v, w) ∈ V ⊕ W , temos que −(v, w) = (−v, −w).
Lema 2.9.2. Se V e W são finitamente gerados, então V ⊕ W é finitamente
gerado e dim(V ⊕ W ) = dim V + dim W . Em particular, se A = {a1 , . . . , an } for
uma base de V e B = {b1 , . . . , bm } for uma base de W , então
A ⊕ B := {(a1 , 0), . . . , (an , 0), (0, b1 ), . . . , (0, bm )}
é uma base de V ⊕ W .
Demonstração. Seja (v, w) ∈ V ⊕ W . Então v = λi ai e w = µj bj , portanto:
(v, w) = (v, 0) + (0, w) = (λi ai , 0) + (0, µj bj ) = λi (ai , 0) + µj (0, bj ).
Isso mostra que A ⊕ B gera V ⊕ W . Só falta mostrar que é independente. Para isso,
consideremos uma combinação linear de A ⊕ B, igual a (0, 0), e demonstremos que
todo coeficiente é nulo:
λi (ai , 0) + µj (0, bj ) = (0, 0)
(λi ai , 0) + (0, µj bj ) = (0, 0)
(λi ai , µj bj ) = (0, 0)
λ i ai = 0 µj bj = 0.
Como A e B são duas bases, temos que λi = µj = 0 para todos i e j. 
De modo análogo podemos definir a soma direta de n espaços vetoriais.
Definição 2.9.3. Sejam V1 , . . . , Vn espaços vetoriais. Definimos o espaço veto-
rial V1 ⊕ · · · ⊕ Vn da seguinte maneira:
• como conjunto, V1 ⊕· · ·⊕Vn coincide com o produto cartesiano V1 ×· · ·×Vn ;
• a soma é definida por (v 1 , . . . , v n ) + (v 01 , . . . , v 0n ) = (v 1 + v 01 , . . . , v n + v 0n );
• o produto externo é definido por λ(v 1 , . . . , v n ) = (λv 1 , . . . , λv n ). ♦
Deixamos a demonstração do seguinte lema ao leitor como exercı́cio.
Lema 2.9.4. Se V1 , . . . , Vn são finitamente gerados, então V1 ⊕ · · · ⊕ Vn é finita-
mente gerado e dim(V1 ⊕ · · · ⊕ Vn ) = dim V1 + · · · + dim Vn . Em particular, se Ai
for uma base de Vi , então A1 ⊕ · · · An é uma base de V1 ⊕ · · · ⊕ Vn .
Pode-se também definir a soma direta de uma famı́lia infinita de espaços vetoriais,
mas, como estamos discutindo principalmente os espaços finitamente gerados, não
vamos aprofundar este assunto.
82 2. FUNÇÕES LINEARES E AFINS

2.9.1. Exercı́cios.
2.6. Demonstre que Kn ⊕ Km ' Kn+m .
2.7. Demonstre o lema 2.9.4.
k vezes
2.8. Demonstre que Kn ' K ⊕ · · · ⊕ K.
2.9. Demonstre que:
(1) V ⊕ W ' W ⊕ V ;
(2) (V ⊕ W ) ⊕ Z ' V ⊕ (W ⊕ Z) ' V ⊕ W ⊕ Z;
(3) V ⊕ {0} ' V .

2.10. Soma de subespaços vetoriais e afins


A noção de soma direta, que acabamos de introduzir, concerne dois (ou mais)
espaços vetoriais abstratos, sem nenhuma relação entre si. Agora consideramos dois
(ou mais) subespaços vetoriais de um espaço V fixado e definimos a noção de soma.
A mesma operação será definida em relação aos subespaços afins.
2.10.1. Soma de subespaços vetoriais. Consideremos dois subespaços veto-
riais W1 , W2 ⊂ V . Vimos que a interseção W1 ∩ W2 é um subespaço vetorial de V ,
mas a união W1 ∪ W2 , em geral, não o é.
Exemplo 2.10.1. Sejam W1 = {(x, x) : x ∈ R} e W2 = {(x, −x) : x ∈ R}. Claramente
W1 e W2 são dois subespaços vetoriais de R2 , mas (1, 1), (1, −1) ∈ W1 ∪ W2 e (1, 1) +
(1, −1) = (2, 0) ∈
/ W 1 ∪ W2 . ♦
Por isso, damos a seguinte definição.
Definição 2.10.2. Sejam W1 e W2 dois subespaços vetoriais de V . A soma
W1 + W2 é o subespaço de V gerado por W1 ∪ W2 :
W1 + W2 := hW1 ∪ W2 i. ♦
Isso significa que a soma W1 + W2 é o mı́nimo subespaço de V que contém
W1 ∪ W2 . Equivalentemente, é o mı́nimo subespaço de V que contém W1 e W2 ,
assim como a interseção W1 ∩ W2 é o máximo subespaço de V contido em W1 e em
W2 .
Lema 2.10.3. Sejam W1 = hA1 i e W2 = hA2 i. Então W1 + W2 = hA1 ∪ A2 i.
Demonstração. Temos que W1 = hA1 i ⊂ hA1 ∪A2 i e W2 = hA2 i ⊂ hA1 ∪A2 i,
logo W1 ∪W2 ⊂ hA1 ∪A2 i, portanto, pelo lema 1.3.10 item 4, temos que hW1 ∪W2 i ⊂
hA1 ∪ A2 i, ou seja, W1 + W2 ⊂ hA1 ∪ A2 i. Reciprocamente, A1 ∪ A2 ⊂ W1 ∪ W2 ,
portanto hA1 ∪ A2 i ⊂ hW1 ∪ W2 i, ou seja, hA1 ∪ A2 i ⊂ W1 + W2 . 
Exemplo 2.10.4. Consideremos W1 = h(1, 0, 0, 0), (0, 1, 0, 0)i e W2 = h(0, 1, 0, 0),
(0, 0, 1, 0)i em R4 . Então, pelo lema 2.10.3:
W1 + W2 = h(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0)i.
Podemos também escolher as seguintes bases: W1 = h(1, 0, 0, 0), (0, 1, 0, 0)i e W2 =
h(0, 1, 1, 0), (0, 0, 1, 0)i. Nesse caso, unindo os geradores, temos:
W1 + W2 = h(1, 0, 0, 0), (0, 1, 0, 0), (0, 1, 1, 0), (0, 0, 1, 0)i.
2.10. SOMA DE SUBESPAÇOS VETORIAIS E AFINS 83

O terceiro vetor é a soma do segundo e do quarto, portanto pode ser tirado. Isso mostra
que, unindo uma base de W1 e uma base de W2 , em geral não se obtém uma base de
W1 + W2 , mas um conjunto de geradores que pode ser dependente. Mostraremos que isso
depende do fato que W1 ∩ W2 6= {0}. ♦

Lema 2.10.5. W1 + W2 é o conjunto formado pelas somas entre um vetor de W1


e um vetor de W2 , ou seja:
W1 + W2 = {w1 + w2 : w1 ∈ W1 , w2 ∈ W2 }.
Isso significa que a soma W1 + W2 , como soma de subespaços vetoriais, coincide
com a soma W1 + W2 , como soma de subconjuntos genéricos, definida em 1.7.1.
Demonstração – Método I. Seja A = {w1 + w2 : w1 ∈ W1 , w2 ∈ W2 } e
demonstremos que A = W1 +W2 . Um elemento w1 +w2 ∈ A é uma combinação linear
da famı́lia {w1 , w2 } ⊂ W1 ∪ W2 , logo A ⊂ hW1 ∪ W2 i = W1 + W2 . Reciprocamente,
seja w ∈ W1 + W2 . Por definição, existe uma famı́lia {u1 , . . . , uk } ⊂ W1 ∪ W2
tal que w = λi ui . Para todo i, temos que ui ∈ W1 ou ui ∈ W2 , portanto, a
menos da ordem, podemos supor que {u1 , . . . , uh } ⊂ W1 e {uh+1 , . . . , uk } ⊂ W2 .
Sendo W1 e W2 subespaços vetoriais, temos que w1 := λ1 u1 + · · · + λh uh ∈ W1 e
w2 := λh+1 uh+1 +· · ·+λk uk ∈ W2 , logo w = w1 +w2 ∈ A, portanto W1 +W2 ⊂ A. 
Demonstração – Método II. Seja A = {w1 + w2 : w1 ∈ W1 , w2 ∈ W2 } e
demonstremos que A = W1 + W2 . Antes de tudo, o subconjunto A ⊂ V é um
subespaço vetorial. De fato, sejam w, w0 ∈ A. Por definição existem w1 , w01 ∈ W1 e
w2 , w02 ∈ W2 tais que w = w1 + w2 e w0 = w01 + w02 . Sejam λ, µ ∈ K. Como W1 e W2
são subespaços vetoriais, temos que w001 := λw1 +µw01 ∈ W1 e w002 := λw2 +µw02 ∈ W2 .
Logo, λw+µw0 = λ(w1 +w2 )+µ(w01 +w02 ) = (λw1 +µw01 )+(λw2 +µw02 ) = w001 +w002 ∈ A.
É claro que W1 ⊂ A. De fato, se w1 ∈ W1 , como 0 ∈ W2 , temos que w1 =
w1 + 0 ∈ A. Analogamente, W2 ⊂ A, logo W1 ∪ W2 ⊂ A. Sendo A um subespaço
vetorial, pelo lema 1.3.10 item 4 temos que hW1 ∪ W2 i ⊂ A, ou seja, W1 + W2 ⊂ A.
Reciprocamente, um elemento w1 + w2 ∈ A é uma combinação linear da famı́lia
{w1 , w2 } ⊂ W1 ∪ W2 , logo A ⊂ hW1 ∪ W2 i = W1 + W2 . 
Pelo lema precedente, um elemento genérico w ∈ W1 + W2 pode ser escrito na
forma w = w1 + w2 , sendo w1 ∈ W1 e w2 ∈ W2 . Todavia, fixado w, os elementos w1
e w2 não são únicos em geral.
Exemplo 2.10.6. Consideremos os subespaços W1 e W2 do exemplo 2.10.4. Seja
w = (1, 1, 1, 0). Então temos que w = (1, 1, 0, 0) + (0, 0, 1, 0) ∈ W1 + W2 , mas também
w = (1, 0, 0, 0) + (0, 1, 1, 0) ∈ W1 + W2 . O seguinte lema mostra que isso acontece pois
W1 ∩ W2 6= {0}. ♦

Lema 2.10.7. Sejam W1 e W2 subespaços vetoriais de V tais que W1 ∩W2 = {0}.


Então, dado w ∈ W1 +W2 , existem únicos w1 ∈ W1 e w2 ∈ W2 tais que w = w1 +w2 .
Demonstração. Sejam w1 , w01 ∈ W1 e w2 , w02 ∈ W2 tais que w = w1 + w2 =
w01 + w02 . Então:
(25) w1 − w01 = w2 − w02 .
84 2. FUNÇÕES LINEARES E AFINS

Como o lado esquerdo de (25) pertence a W1 e o lado direito pertence a W2 , os dois


lados são iguais a um elemento de W1 ∩ W2 . Sendo W1 ∩ W2 = {0}, temos w1 = w01
e w2 = w02 . 
Dados dois subespaços W1 e W2 de V , consideremos a soma direta W1 ⊕ W2 ,
conforme a definição 2.9.1. Podemos comparar W1 ⊕ W2 e W1 + W2 . Queremos
deixar claro que W1 ⊕ W2 é definida independentemente do fato que W1 e W2 sejam
subespaços de V , enquanto W1 + W2 é definida interiormente a V . Temos a seguinte
função natural:
S : W1 ⊕ W2 → W1 + W2
(26)
(w1 , w2 ) 7→ w1 + w2 .
Lema 2.10.8. A função S é linear e sobrejetora. Trata-se de um isomorfismo
se, e somente se, W1 ∩ W2 = {0}.
Demonstração. Para verificar que S é linear, observamos que:
S(λ(w1 , w2 ) + µ(w01 , w02 )) = S(λw1 + µw2 , λw01 + µw02 )
= λw1 + µw2 + λw01 + µw02 = λS(w1 , w2 ) + µS(w01 , w02 ).
Pelo lema 2.10.5, S é sobrejetora. Pelo lema 2.10.7, se W1 ∩ W2 = {0}, então S
é bijetora, portanto é um isomorfismo. Reciprocamente, se S for bijetora, então
W1 ∩ W2 = {0}. De fato, seja w ∈ W1 ∩ W2 . Temos que S(w, −w) = S(0, 0), logo,
sendo S injetora, (w, −w) = (0, 0), ou seja, w = 0. 
Pelo lema precedente, W1 + W2 tem “a mesma estrutura” de W1 ⊕ W2 se, e
somente se, W1 ∩ W2 = {0}. Por isso, quando W1 ∩ W2 = {0}, às vezes se denota
W1 + W2 também por W1 ⊕ W2 , subentendendo o isomorfismo S. Em particular, isso
implica que dim(W1 + W2 ) = dim W1 + dim W2 . Em geral, a dimensão de W1 + W2
pode ser menor que a soma dim W1 + dim W2 .
Exemplo 2.10.9. No exemplo 2.10.4 temos que dim W1 = dim W2 = 2, mas dim(W1 +
W2 ) = 3; em particular, a diferença entre dim W1 + dim W2 e dim(W1 + W2 ) é igual a
1, portanto coincide com dim(W1 ∩ W2 ). Não se trada de um fato casual: do ponto de
vista geométrico, podemos intuir que, somando as dimensões de W1 e W2 , “contamos duas
vezes” a interseção W1 ∩ W2 , portanto temos que tirá-la uma vez da soma. ♦
O seguinte teorema confirma a última afirmação do exemplo precedente. Ade-
mais, a demonstração indica um modo concreto para encontrar uma base de W1 +W2
a partir de uma base de W1 e de uma de W2 .
Teorema 2.10.10 (Fórmula de Grassmann). Sejam W1 e W2 subespaços veto-
riais de V . Temos que:
(27) dim(W1 + W2 ) = dim W1 + dim W2 − dim(W1 ∩ W2 ).
Demonstração. Seja U = {u1 , . . . , ul } uma base de W1 ∩ W2 . Pelo teorema
da base incompleta, podemos completar U a uma base A = {u1 , . . . , ul , al+1 , . . . , ak }
de W1 e a uma base B = {u1 , . . . , ul , bl+1 , . . . , bh } de W2 . Consideremos o conjunto
S = A ∪ B = {u1 , . . . , ul , al+1 , . . . , ak , bl+1 , . . . , bh }. Mostremos que S é uma base de
W1 + W2 . Em particular, isso implica a fórmula (27).
2.10. SOMA DE SUBESPAÇOS VETORIAIS E AFINS 85

Pelo lema 2.10.3, S gera W1 + W2 , portanto só devemos mostrar que é indepen-
dente. Seja:

λ1 u1 + · · · + λl ul + µl+1 al+1 + · · · + µk ak + νl+1 bl+1 + · · · + νh bh = 0.

Isso implica que:

(28) λ1 u1 + · · · + λl ul + µl+1 al+1 + · · · + µk ak = −νl+1 bl+1 − · · · − νh bh .

O lado esquerdo de (28) é um vetor de W1 e o lado direito é um vetor de W2 , logo


os dois lados são iguais a um vetor w ∈ W1 ∩ W2 . Como U é uma base de W1 ∩ W2 ,
temos que w = ξ1 u1 + · · · + ξl ul , logo:

(29) w = ξ1 u1 + · · · + ξl ul + 0al+1 + · · · + 0ak .

Sendo A uma base, os coeficientes de w a respeito de A são únicos, portanto (29)


coincide com o lado esquerdo de (28). Logo, em (28), temos µl+1 = · · · = µk = 0.
Portanto, (28) se torna:

λ1 u1 + · · · + λl ul + νl+1 bl+1 + · · · + νh bh = 0.

Dado que B é uma base, temos λ1 = · · · = λl = νl+1 = · · · = νh = 0. Isso mostra


que S é independente. 
Exercı́cio 2.10.11. Considere os subespaços W1 e W2 do exemplo 1.33 e encontre
uma base de W1 + W2 .

Resolução. Uma base de W1 é A0 = {(1, 1, 0, 1), (3, −1, 2, 3)} e uma base de W2 é
B0 = {(0, 2, 1, −1), (1, 1, 2, 0)}. Ademais, mostramos que uma base da interseção é U =
{(1, −1, 1, 1)}. Podemos completar U a uma base de W1 , acrescentando um vetor de
A0 . Como nenhum dos dois vetores de A0 é múltiplo de (1, −1, 1, 1), podemos escolher
livremente um dos dois. Seja A = {(1, −1, 1, 1), (1, 1, 0, 1)}. Analogamente, consideremos
a base B = {(1, −1, 1, 1), (0, 2, 1, −1)} de W2 . Pela demonstração do teorema 2.10.10,
uma base de W1 + W2 é A ∪ B = {(1, −1, 1, 1), (1, 1, 0, 1), (0, 2, 1, −1)}. Em particular,
dim(W1 + W2 ) = 3, coerentemente com a fórmula (27). ♦

Observação 2.10.12. Podemos também deduzir a fórmula de Grassman a par-


tir do teorema do núcleo de da imagem. De fato, consideremos a função (26). Temos
que S(v 1 , v 2 ) = 0 se, e somente se, v 2 = −v 1 , logo Ker(S) = {(v 1 , −v 1 ) ∈ W1 ⊕ W2 }.
Claramente, (v 1 , −v 1 ) ∈ W1 ⊕ W2 se, e somente se, v 1 ∈ W1 ∩ W2 , portanto te-
mos o isomorfismo canônico ϕ : Ker S → W1 ∩ W2 , (v 1 , −v 1 ) 7→ v 1 . Em parti-
cular, dim(Ker S) = dim W1 ∩ W2 . Dado que S é sempre sobrejetora, temos que
dim(Im S) = dim(W1 + W2 ), logo o teorema do núcleo de da imagem, ou seja,
dim(Ker S) + dim(Im S) = dim(W1 ⊕ W2 ), equivale à formula dim(W1 ∩ W2 ) +
dim(W1 + W2 ) = dim(W1 ) + dim(W2 ), isto é, à fórmula de Grassman. ♦
De modo análogo pode-se definir a soma de n subespaços vetoriais W1 +· · ·+Wn ,
sendo o subespaço gerado por W1 ∪ . . . ∪ Wn . Vale uma generalização adequada da
fórmula de Grassmann, mas não vamos aprofundar este assunto.
86 2. FUNÇÕES LINEARES E AFINS

2.10.2. Soma de subespaços afins. No caso da soma, temos que procurar a


definição correta. Poderı́amos definir a soma entre os subespaços afins A1 = v 1 + W1
e A2 = v 2 + W2 como o subespaço afim A = (v 1 + v 2 ) + (W1 + W2 ). Isso seria
coerente, mas, em geral, A não contém nem A1 nem A2 . Por isso, procuramos uma
definição que satisfaça a mesma propriedade da soma entre subespaços vetoriais,
isto é, queremos que A1 + A2 seja o mı́nimo subespaço afim de V que contém A1 e
A2 . Isso significa o seguinte:
• A1 + A2 é um subespaço afim de V ;
• A1 ⊂ A1 + A2 e A2 ⊂ A1 + A2 ;
• se A ⊂ V for um subespaço afim tal que A1 ⊂ A e A2 ⊂ A, então A1 + A2 ⊂
A.
Por isso, temos que distinguir dois casos.
Definição 2.10.13. Sejam A1 , A2 ⊂ V subespaços afins.
• Se A1 ∩ A2 6= ∅, sejam A1 = v + W1 e A2 = v + W2 . Definimos:
(30) A1 + A2 := v + (W1 + W2 ).
• Se A1 ∩ A2 = ∅, sejam A1 = v 1 + W1 e A2 = v 2 + W2 . Definimos:
(31) A1 + A2 := v 1 + (W1 + W2 + hv 2 − v 1 i). ♦
Vamos explicar a definição 2.10.13, verificando que satisfaz a propriedade pedida.
Se A1 = v + W1 e A2 = v + W2 , claramente A1 + A2 , como definido em (30), é um
subespaço que contém A1 e A2 . Ademais, seja A ⊂ V um subespaço afim que
contém A1 e A2 . Seja A = v + W . Então W1 ⊂ W e W2 ⊂ W . Como W é um
subespaço vetorial, hW1 ∪ W2 i ⊂ W , ou seja, W1 + W2 ⊂ W . Logo A ⊂ A1 + A2 .
Para discutir o caso A1 ∩ A2 = ∅, precisamos do seguinte lema.
Lema 2.10.14. Sejam V um espaço vetorial real, W ⊂ V um subespaço vetorial
e v ∈ V . Então hv + W i = hvi + W .
Demonstração. Sendo W = hW i, pelo lema 2.10.3 temos que hvi + W =
h{v} ∪ W i. Claramente v + W ⊂ h{v} ∪ W i, logo hv + W i ⊂ h{v} ∪ W i. Vamos
provar a inclusão oposta. Temos que v = v + 0 ⊂ v + W . Portanto, se w ∈ W ,
temos que w = (v + w) − v ∈ hv + W i. Isso mostra que {v} ∪ W ⊂ hv + W i, logo
h{v} ∪ W i ⊂ hv + W i. 

Se A1 ∩ A2 = ∅, claramente A1 ⊂ A1 + A2 , conforme a definição (31). Ademais,


considerando v 2 + w ∈ A2 , temos que v 2 + w = v 1 + (w + v 2 − v 1 ) ∈ A1 + A2 ,
logo A2 ⊂ A1 + A2 . Seja agora A ⊂ V um subespaço afim que contém A1 e A2 .
Escrevemos A na forma A = v 1 + W . Como A1 ⊂ A, temos que W1 ⊂ W . Como
A2 ⊂ A e A2 = v 1 + ((v 2 − v 1 ) + W2 ), temos que (v 2 − v 1 ) + W2 ⊂ W . Como W é um
subespaço vetorial, hW1 ∪ ((v 2 − v 1 ) + W2 )i ⊂ W , logo W1 + h(v 2 − v 1 ) + W2 i ⊂ W .
Pelo lema 2.10.14, W1 + W2 + hv 2 − v 1 i ⊂ W , logo A1 + A2 ⊂ A.
Observamos que, na definição (31), podemos considerar v 2 ao invés de v 1 como
ponto base, obtendo o mesmo subespaço afim.
2.11. ESPAÇO VETORIAL QUOCIENTE 87

Exercı́cio 2.10.15. Dados os dois seguintes subespaços afins de R4 :


A1 = (−1, −1, −1, −1) + h(1, 1, 0, 1), (3, −1, 2, 3)i
A2 = (1, 1, 1, 0) + h(0, 2, 1, −1), (1, 1, 2, 0)i
determine A1 + A2 .
Resolução. Verificamos no exemplo 1.34 que A1 ∩A2 = (1, 1, 1, 0)+h(1, −1, 1, 1)i.
Ademais, verificamos no exemplo 2.10.11 que uma base de W1 +W2 é {(1, −1, 1, 1), (1, 1, 0, 1),
(0, 2, 1, −1)}. Portanto A1 + A2 = (1, 1, 1, 0) + h(1, −1, 1, 1), (1, 1, 0, 1), (0, 2, 1, −1)i.

Exercı́cio 2.10.16. Dados os dois seguintes subespaços afins de R4 :


A1 = (−2, −2, 0, 0) + h(1, 1, 0, 1), (3, −1, 2, 3)i
A2 = (0, 0, 2, 2) + h(0, 2, 1, −1), (1, 1, 2, 0)i
determine A1 ∩ A2 .
Resolução. Verificamos no exemplo 1.35 que A1 ∩ A2 = ∅. Ademais, veri-
ficamos no exemplo 2.10.11 que uma base de W1 + W2 é {(1, −1, 1, 1), (1, 1, 0, 1),
(0, 2, 1, −1)}. Portanto, conforme o modo padrão de escrever a soma, temos A1 +
A2 = (−2, −2, 0, 0)+h(1, −1, 1, 1), (1, 1, 0, 1), (0, 2, 1, −1), (2, 2, 2, 2)i. Todavia, neste
caso podemos observar que dim(A1 + A2 ) = dim(W1 + W2 ) + 1 = 4 = dim R4 , logo
A1 + A2 = R4 . ♦

2.11. Espaço vetorial quociente


Teorema de isomorfismo
CAPı́TULO 3

Álgebra das matrizes

Nos capı́tulos I.3 e II.0 estudamos as noções principais da álgebra das matri-
zes. Contudo, os conceitos fundamentais de determinante e posto foram somente
esboçados no vol. I, dado que o determinante nem foi definido em geral e, em relação
ao posto, a maioria das afirmações não foi demonstrada. Neste capı́tulo vamos com-
pletar e aprofundar o estudo destes tópicos de modo matematicamente rigoroso.
Para isso, precisamos começar por alguns conceitos de combinatória.

3.1. Permutações
Fixado n ∈ N∗ , consideremos o conjunto {1, . . . , n}, que obviamente contém n
elementos.
Definição 3.1.1. Uma permutação com repetição de n elementos é uma função
σ : {1, . . . , n} → {1, . . . , n}. Indicamos por Pn o conjunto das permutações com
repetição de n elementos. ♦
Isso significa que escolhemos n números entre 1 e n, sendo σ(1) o primeiro
número, σ(2) o segundo e assim em diante. É fácil contar quantas são em total
as permutações com repetição: para cada número entre 1 e n no domı́nio, temos n
escolhas no contra-domı́nio, portanto temos nn escolhas em total, ou seja, |Pn | =
nn . É claro que podemos compor duas permutações com repetição, obtendo uma
permutação com repetição.
Definição 3.1.2. Uma permutação de n elementos é uma função bijetora σ :
{1, . . . , n} → {1, . . . , n}. Indicamos por Sn o conjunto das permutações de n ele-
mentos. ♦
É claro que Sn ⊂ Pn . Uma permutação pode ser pensada como um modo de
reordenar o conjunto {1, . . . , n}, sendo σ(i) o número que vai ocupar a posição i-
ésima. Para calcular o número total de permutações de n elementos, observamos
que temos n escolhas para σ(1), n − 1 escolhas para σ(2) e assim em diante até
uma escolha para σ(n). Logo, temos n! escolhas em total, ou seja, |Sn | = n!.
Claramente a composição de duas permutações é ainda uma permutação, dado que
a composição de duas bijeções é também uma bijeção. Além disso, a identidade
é uma permutação e, sendo as permutações bijetoras, para cada σ ∈ Sn existe a
permutação inversa σ −1 ∈ Sn . Como a composição de funções (logo, em particular,
de permutações) é associativa, Sn é um grupo.1 Podemos indicar uma permutação
1Ao contrário, Pn é um monoide, dado que nem toda permutação com repetição é invertı́vel.
89
90 3. ÁLGEBRA DAS MATRIZES

mostrando o conjunto {1, . . . , n} reordenado. Por exemplo, a permutação de S4


definida por σ(1) = 2, σ(2) = 4, σ(3) = 3 e σ(4) = 1 pode ser indicada por 2, 4, 3, 1.
Chamamos de transposição uma permutação que troca dois elementos e fixa os
demais. Indicamos a transposição que troca i e j por (ij) e indicamos a composição
das transposições (ij) e (hk), nesta ordem, por (ij)(hk). O fato fundamental é que
cada permutação é igual à composição de uma quantidade finita de transposições.
Exemplo 3.1.3. Consideremos a permutação σ = 3, 5, 4, 1, 2 de S5 . Podemos escrevê-
la como produto de transposições da seguinte maneira:
(13) (25) (14)
1, 2, 3, 4, 5 7−→ 3, 2, 1, 4, 5 7−→ 3, 5, 1, 4, 2 7−→ 3, 5, 4, 1, 2.
Equivalentemente, σ = (13)(25)(14). Vamos mostrar como deduzimos esta decomposição
de σ em um produto de transposições. Começamos observando que o número 3 tem que
estar na primeira posição, portanto trocamos 1 e 3. Em seguida, como o 5 tem que estar
na segunda posição, trocamos o 5 com o 2. Enfim, como o 4 tem que estar na terceira
posição, que agora está ocupada pelo número 1, trocamos 1 com 4. Este não é o único
modo de escrever σ como produto de transposições. Por exemplo, poderı́amos atuar da
seguinte maneira:
(12) (13)
1, 2, 3, 4, 5 7−→ 2, 1, 3, 4, 5 7−→ 2, 3, 1, 4, 5
(23) (25) (14)
7−→ 3, 2, 1, 4, 5 7−→ 3, 5, 1, 4, 2 7−→ 3, 5, 4, 1, 2.
Neste caso σ = (12)(13)(23)(25)(14). ♦
O exemplo precedente mostra que o número de transposições envolvidas não
depende só de σ, pois a mesma permutação foi escrita antes como composição de 3
transposições e depois como composição de 5. Todavia, podemos observar que 3 e
5 são ambos ı́mpares. Este é um fato geral, pois vale o seguinte teorema.
Teorema 3.1.4. Uma permutação σ ∈ Sn pode ser decomposta no produto de
um número finito de transposições. Ademais, se σ = τ1 · · · τk e σ = τ10 · · · τh0 forem
duas decomposições de σ como produto de transposições, então (−1)k = (−1)h .
No apêndice A mostraremos a demonstração do teorema 3.1.4, graças ao qual
podemos dar a seguinte definição.
Definição 3.1.5. Seja σ ∈ Sn . Chamamos σ de permutação par (respetivamente
impar ) se for o produto de um número par (respetivamente ı́mpar) de transposições.
Se σ for par, usamos a notação (−1)σ := 1, se for ı́mpar, usamos a notação (−1)σ :=
−1. ♦
Se σ, ρ ∈ Sn , então (−1)σ◦ρ = (−1)σ (−1)ρ , como é fácil verificar decompondo σ
e ρ em um produto de transposições. Enfim, os seguintes lemas e corolários serão
importantes para mostrar as propriedades fundamentais do determinante.
Lema 3.1.6. Seja σ0 ∈ Sn fixada.
• a função rσ0 : Sn → Sn , σ 7→ σ ◦ σ0 , é uma bijeção;
• a função lσ0 : Sn → Sn , σ 7→ σ0 ◦ σ, é uma bijeção;
• a função ι : Sn → Sn , definida por σ 7→ σ −1 , é uma bijeção.
3.2. DETERMINANTE 91

Demonstração. É fácil verificar que rσ0−1 = (rσ0 )−1 , logo rσ0 é invertı́vel. O
mesmo vale para lσ0 . Como ι2 = id, ι é a inversa de si mesma. 
Corolário 3.1.7. Seja f : Sn → K uma função e seja σ0 ∈ Sn . Temos que:
X X X
(32) f (σ) = f (σ ◦ σ0 ) = f (σ0 ◦ σ).
σ∈Sn σ∈Sn σ∈Sn

Demonstração. Pelo lema 3.1.6, a função rσ0 : Sn → Sn , σ 7→ σ◦σ0 , é bijetora,


logo a soma dos termos f (σ ◦σ0 ) é uma permutação da soma dos termos f (σ). Sendo
a soma comutativa, o resultado não muda. O mesmo argumento vale para a soma
dos termos f (σ0 ◦ σ). 
Corolário 3.1.8. Seja f : Sn → K uma função. Temos que:
X X
(33) f (σ −1 ) = f (σ).
σ∈Sn σ∈Sn

Demonstração. Pelo lema 3.1.6, a função σ 7→ σ −1 é uma bijeção de Sn ,


portanto a inversão de σ do lado esquerdo de (33) só muda a ordem dos termos da
soma à direita. Como a soma é comutativa, o resultado é o mesmo. 
Lema 3.1.9. Seja f : {1, . . . , n} → K uma função e seja σ ∈ Sn . O produto
de todos os elementos f (i), sendo 1 ≤ i ≤ n, coincide com o produto de todos os
elementos f (σ(i)), isto é:
(34) f (σ(1)) · · · f (σ(n)) = f (1) · · · f (n).
Demonstração. Como σ é uma função bijetora, o lado esquerdo de (34) é uma
permutação dos fatores do lado direito. Como o produto é comutativo, o resultado
é o mesmo. 
3.2. Determinante
Seja A ∈ M (n; K). Na seção I.3.4 definimos o determinante para n ≤ 2 e
mostramos que é caracterizado pelas três seguintes propriedades fundamentais: (1)
linearidade em cada coluna; (2) antissimetria nas colunas; (3) det(I2 ) = 1. Agora
vamos construir uma função det : M (n; K) → K, para qualquer n, que satisfaz as
mesmas propriedades, mostrando que é única. Isso já foi enunciado na seção I.3.5
(teorema 3.5.1), mas sem demonstração.
Definição 3.2.1. Um determinante de ordem n é uma função det : M (n; K) →
K que satisfaz as seguintes propriedades.
(1) A função det é linear em cada coluna, ou seja:
det[a1 | · · · | ai−1 | λai + µa0i | ai+1 | · · · | an ]
(35)
= λ det[a1 | · · · | ai−1 | ai | ai+1 | · · · | an ] + µ det[a1 | · · · | ai−1 | a0i | ai+1 | · · · | an ].
(2) Trocando duas colunas, o valor de det muda de sinal, ou seja, para i < j:
det[a1 | · · · | ai−1 | ai | ai+1 | · · · | aj−1 | aj | aj+1 | · · · | an ]
(36)
= − det[a1 | · · · | ai−1 | aj | ai+1 | · · · | aj−1 | ai | aj+1 | · · · | an ].
(3) det(In ) = 1. ♦
92 3. ÁLGEBRA DAS MATRIZES

Vamos mostrar que, se uma função deste tipo existir, só pode ter uma expressão
particular. Em seguida, mostraremos que a função, definida por esta expressão
particular, é um determinante. Sendo única, será o determinante.
Lema 3.2.2. Se det : M (n; K) → K for um determinante e A ∈ M (n; K) tiver
duas colunas iguais, então det(A) = 0.
Demonstração. Seja A = [a1 | · · · | an ] e seja ai = aj com i 6= j. Pela fórmula
(36), trocando ai e aj o determinante muda de sinal, mas, como ai = aj , obtemos a
mesma matriz A. Logo det(A) = − det(A), ou seja, det(A) = 0. 
O lema precedente corresponde à propriedade (20 ) das seções I.3.4 e I.3.5.
Lema 3.2.3. Se det : M (n; K) → K for um determinante, então, para toda σ ∈
Sn , temos:
(37) det[aσ(1) | · · · | aσ(n) ] = (−1)σ det[a1 | · · · | an ].
Demonstração. Pelo teorema 3.1.4, temos que σ = τ1 · · · τk , sendo τi uma
transposição. Aplicando cada transposição τi às colunas de [a1 | · · · | an ], o valor de
det muda de sinal pela fórmula (36). Logo, aplicando σ, o valor fica multiplicado
por (−1)k , que coincide com (−1)σ pela definição 3.1.5. 

3.2.1. Unicidade. Para mostrar que, se um determinante existir, é único, te-


mos que reproduzir o mesmo raciocı́nio da seção I.3.4.2 (que seria útil ler nova-
mente neste momento, como exemplo simples) para matrizes de ordem genérica.
Seja {e1 , . . . , en } a base canônica de Kn . Suponhamos que exista um determinante
det : M (n; K) → K. Seja A = [αij ] = [a1 | · · · | an ], isto é, ai = αj i ej . Então:
(38) det(A) = det[α11 e1 + · · · + αn1 en | · · · | α1n e1 + · · · + αnn en ].
Pela fórmula (35), a função det é linear em cada coluna de A. Por isso, a partir de
(38), obtemos uma combinação linear de determinantes, cada um obtido escolhendo
um vetor ei para cada coluna de A, com o coeficiente correspondente. Logo, para
cada permutação com repetição σ ∈ Pn , temos um termo da combinação linear, ou
seja:
X
(39) det(A) = ασ(1)1 · · · ασ(n)n det[eσ(1) | · · · | eσ(n) ].
σ∈Pn

Suponhamos que σ ∈ Pn não seja uma permutação, ou seja, que existam i e j tais
que i 6= j e σ(i) = σ(j). Pelo lema 3.2.2, temos que det[eσ(1) | · · · | eσ(n) ] = 0.
Portanto, na fórmula (39), só podemos considerar as permutações, ou seja, podemos
somar sobre σ ∈ Sn . Ademais, se σ ∈ Sn , podemos aplicar a fórmula (37). Obtemos:
X
(40) det(A) = (−1)σ ασ(1)1 · · · ασ(n)n det[e1 | · · · | en ].
σ∈Sn

Observamos que [e1 | · · · | en ] = In , logo, pelo item 3 da definição 3.2.1, temos:


(41) det[e1 | · · · | en ] = 1.
3.2. DETERMINANTE 93

Afinal:
X
(42) det(A) = (−1)σ ασ(1)1 · · · ασ(n)n .
σ∈Sn

A fórmula (42) define uma função det : M (n; K) → K.


Exemplo 3.2.4. Seja n = 1. Então uma matriz A ∈ M (1; K) só tem uma entrada.
Seja A = [α]. Como S1 = {id}, a soma em (42) é formada por um termo, ou seja,
det(A) = α. ♦
Exemplo 3.2.5. Sejam n = 2 e:
 
α11 α12
A= .
α21 α22
Como S2 = {(12), (21)}, a soma em (42) é formada por dois termos, ou seja:
det(A) = α11 α22 − α21 α12 .
Obtemos a fórmula usual para matrizes de ordem 2. ♦
Exemplo 3.2.6. Sejam n = 3 e:
 
α11 α12 α13
A = α21 α22 α23  .
α31 α32 α33
Como S6 contém 3! = 6 elementos, temos 6 termos na soma de (42). Os elementos de S6
são os seguintes, com a respetiva paridade:
σ0 = 1, 2, 3 (−1)σ0 = 1 σ1 = 2, 1, 3 (−1)σ1 = −1
σ2 = 1, 3, 2 (−1)σ2 = −1 σ3 = 3, 2, 1 (−1)σ3 = −1
σ4 = 2, 3, 1 (−1)σ4 = 1 σ5 = 3, 1, 2 (−1)σ5 = 1.
Portanto obtemos:
(43) det(A) = a11 a22 a33 − a21 a12 a33 − a11 a32 a23 − a31 a22 a13 + a21 a32 a13 + a31 a12 a23 .
Nesse caso, podemos usar a regra de Sarrus, definida da seguinte maneira. Repitamos as
primeiras duas colunas de A do lado direto:
 
α11 α12 α13 α11 α12
α21 α22 α23 α21 α22  .
α31 α32 α33 α31 α32
Agora consideremos as três diagonais principais e as três diagonais secundárias:
 
α11 α12 α13 α11 α12
α21 α22 α23 α21 α22  .
α31 α32 α33 α31 α32
O determinante de A se obtém da seguinte maneira: para cada uma das seis diagonais,
multiplicamos as entradas entre si; em seguida, somamos estes produtos, colocando um
sinal negativo em correspondência das diagonais secundárias. Obtemos a fórmula (43). ♦
O cálculo direto a partir da fórmula (42), que acabamos de mostrar explicita-
mente para n ≤ 3, se complica muito para n ≥ 4, pois n! cresce muito rapidamente.
Por exemplo, para n = 4 temos uma soma de 24 termos e para n = 5 já se tornam
120. Por isso, precisamos de uma técnica mais rápida. Vimos na seção I.3.5.1 que
94 3. ÁLGEBRA DAS MATRIZES

pode-se aplicar o método de Laplace, que é mais eficiente. Mostraremos em seguida


que esse método é equivalente à fórmula (42).
3.2.2. Existência. Acabamos de demonstrar que, se det for um determinante,
então tem que coincidir com (42). Agora devemos provar que (42) é efetivamente
um determinante, ou seja, verifica as três condições da definição 3.2.1.
Lema 3.2.7. A função det definida por (42) é um determinante, conforme a
definição 3.2.1.
Demonstração. (1) Seja A = [a1 | · · · | ai−1 | λai + µa0i | ai+1 | · · · | an ]. Sejam
ai = αj i ej e a0i = α0 j i ej . Então, aplicando a fórmula (42), temos:
X
0
det(A) = (−1)σ ασ(1)1 · · · (λασ(i),i + µασ(i),i ) · · · ασ(n)n
σ∈Sn
X X
0
=λ (−1)σ ασ(1)1 · · · ασ(i)i · · · ασ(n)n + µ (−1)σ ασ(1)1 · · · ασ(i)i · · · ασ(n)n
σ∈Sn σ∈Sn

= λ det[a1 | · · · | ai | · · · | an ] + µ det[a1 | · · · | a0i | · · · | an ].

(2) Seja A = [a1 | · · · | an ] e seja A0 a matriz obtida trocando as colunas i e j,


com i < j, ou seja, A0 = [a1 | · · · | ai−1 | aj | ai+1 | · · · | aj−1 | ai | aj+1 | · · · | an ].
Seja τ = (ij) a transposição que troca i e j. Temos que A0 = [aτ (1) | · · · | aτ (n) ],
logo:
X (?) X
det(A0 ) = (−1)σ ασ(1)τ (1) · · · ασ(n)τ (n) = (−1)σ◦τ ασ◦τ (1)τ (1) · · · ασ◦τ (n)τ (n)
σ∈Sn σ∈Sn
(??) X
σ◦τ
X
= (−1) ασ(1)1 · · · ασ(n)n = − (−1)σ ασ(1)1 · · · ασ(n)n = − det(A).
σ∈Sn σ∈Sn

A igualdade (?) segue da fórmula (32), sendo f (σ) = (−1)σ ασ(1)τ (1) · · · ασ(n)τ (n) e
σ0 = τ . A igualdade (??) segue da fórmula (34), aplicada em cada termo da soma
à função f (i) = ασ(i)i e à permutação τ .
(3) Aplicando a fórmula (42) à matriz idêntica, observamos que ασ(i)i 6= 0 se, e
somente se, σ(i) = i, portanto a única permutação σ ∈ Sn que não anula nenhum
fator do produto ασ(1)1 · · · ασ(n)n é a permutação idêntica. Portanto, o único termo
não nulo da soma (42) é α11 · · · αnn = 1. 
Com isso provamos que a função det : M (n; K) → K, definida pela fórmula (42),
é efetivamente um determinante. Sendo a única possı́vel, é o determinante.
3.2.3. Outras propriedades relevantes. Na seção I.3.4.3 mostramos outras
propriedades do determinante de ordem 2, que são consequência das três fundamen-
tais, mas que são ainda mais importantes nas aplicações (em particular as últimas
três). Na seção I.3.5 (teorema 3.5.1) foram repetidas em geral, mas sem demons-
tração. Trata-se das seguintes propriedades:
(4) o determinante é invariante por transposição, ou seja, det(AT ) = det(A)
para toda matriz A ∈ M (n; K);
(5) o determinante é linear nas linhas da matriz, ou seja, vale a propriedade
(1) enunciada em relação às linhas;
(6) trocando duas linhas o determinante muda de sinal;
3.2. DETERMINANTE 95

(7) o determinante respeita o produto, ou seja, det(AB) = det(A) det(B) para


todas A, B ∈ M (n; K);
(8) det(A) 6= 0 se, e somente se, a famı́lia formada pelas colunas de A é inde-
pendente em Kn ;
(9) det(A) 6= 0 se, e somente se, a famı́lia formada pelas linhas de A é indepen-
dente em Kn ;
(10) det(A) 6= 0 se, e somente se, A é invertı́vel; nesse caso, det(A−1 ) = det(A)
1
.
Vamos demonstrar as propriedades (4)–(10).
3.2.4. Invariância por transposição. O seguinte teorema demonstra a pro-
priedade (4); o relativo corolário demonstra as (5) e (6).
Teorema 3.2.8. Temos que det(A) = det(AT ) para toda A ∈ M (n; K).
Demonstração. Seja A = [αij ]. Pela fórmula (42), temos que:
X
(44) det(AT ) = (−1)σ α1σ(1) · · · αnσ(n) .
σ∈Sn
−1
Claramente i = σ (σ(i)), portanto:
X
det(AT ) = (−1)σ ασ−1 (σ(1))σ(1) · · · ασ−1 (σ(n))σ(n) .
σ∈Sn

Aplicando a fórmula (34) à função f (k) = ασ−1 (k)k em cada termo da soma prece-
dente, obtemos:
−1
X X
det(AT ) = (−1)σ ασ−1 (1)1 · · · ασ−1 (n)n = (−1)σ ασ−1 (1)1 · · · ασ−1 (n)n .
σ∈Sn σ∈Sn

Aplicando a fórmula (33) à função f (σ) = (−1)σ ασ(1)1 · · · ασ(n)n , obtemos:


X
det(AT ) = (−1)σ ασ(1)1 · · · ασ(n)n = det(A). 
σ∈Sn

Corolário 3.2.9. Seja A ∈ M (n; K).


• O determinante é linear em cada linha de A (propriedade (5)).
• Trocando duas linhas, o valor de det muda de sinal (propriedade (6)).
• Se A for uma matriz com duas linhas iguais, então det(A) = 0.
• Para todo σ ∈ Sn , aplicando σ às linhas de A, o determinante fica multi-
plicado por (−1)σ .
Demonstração. É suficiente aplicar os lemas 3.2.2, 3.2.3 e 3.2.7 a AT . 
3.2.5. Multiplicatividade. Vamos demonstrar a propriedade (7), isto é, o fato
que o determinante “respeita o produto”. Para isso, precisamos introduzir algumas
notações em relação às permutações. Seja σ ∈ Sn . Vamos denotar o número σ(i)
também por ki , isto é, σ(i) = ki ∈ {1, . . . , n}. Vimos na seção 3.1 que podemos
denotar a permutação σ também por k1 , . . . , kn . Nesse caso, pomos:
(45) ε(k1 , . . . , kn ) := (−1)σ .
96 3. ÁLGEBRA DAS MATRIZES

Isso significa que ε(k1 , . . . , kn ) é a paridade do número de transposições necessárias


para reordenar a sequência k1 , . . . , kn obtendo 1, . . . , n (ou vice-versa). Ademais, se
σ ∈ Pn \ Sn , ou seja, se existem i e j tais que i 6= j e ki = kj , então pomos:
(46) ε(k1 , . . . , kn ) := 0.
Exemplo 3.2.10. Seja n = 5 e vamos calcular ε(2, 4, 5, 1, 3). Trata-se da permutação
σ(1) = 2, σ(2) = 4, σ(3) = 5, σ(4) = 1 e σ(5) = 3. Conforme a notação das fórmulas
(45) e (46) temos que k1 = 2, k2 = 4, k3 = 5, k4 = 1 e k5 = 3. Vamos escrever
esta permutação σ como produto de transposições. Temos que σ = (12)(14)(35), logo
ε(2, 4, 5, 1, 3) = (−1)σ = (−1)3 = −1. ♦
Lema 3.2.11. Seja f : {1, . . . , n}n → K uma função. Temos que:
X n X
(47) ε(k1 , . . . , kn )f (k1 , . . . , kn ) = (−1)σ f (σ(1), . . . , σ(n)).
k1 ,...,kn =1 σ∈Sn

Demonstração. Somando para todos os valores de k1 , . . . , kn entre 1 e n, es-


tamos considerandos todos os elementos de Pn . Como ε(k1 , . . . , kn ) = 0 se k1 , . . . , kn
não for uma permutação, podemos considerar somente as permutações. Como, para
σ(i) = ki , temos ε(k1 , . . . , kn ) := (−1)σ , obtemos a igualdade. 
Lema 3.2.12. Seja A = [αij ] ∈ M (n; K). Valem as seguintes fórmulas:
Xn
(48) ε(k1 , . . . , kn )αk1 1 · · · αkn n = det(A);
k1 ,...,kn =1
X
(49) (−1)σ ασ(1)k1 · · · ασ(n)kn = ε(k1 , . . . , kn ) det(A).
σ∈Sn

Na fórmula (49), k1 , . . . , kn ∈ {1, . . . , n} são fixados.


Demonstração. A fórmula (48) é consequência direta da fórmula (47), apli-
cada à função f (k1 , . . . , kn ) = αk1 1 · · · αkn n . A respeito da fórmula (49), seja A =
[a1 | · · · | an ]. Observamos que o lado esquerdo de (49) é igual a det[ak1 | · · · | akn ].
Portanto, se k1 , . . . , kn for uma permutação, considerando a fórmula (45), a igual-
dade (49) é equivalente à (37). Se k1 , . . . , kn não for uma permutação, ou seja, se
existirem i e j tais que i 6= j e ki = kj , então a matriz [ak1 | · · · | akn ] tem duas
colunas iguais, logo seu determinante é 0. Considerando a definição (46), também
nesse caso vale (49). 
Teorema 3.2.13 (Teorema de Binet). Sejam A, B ∈ M (n; K). Então det(AB) =
det(A) det(B).
Demonstração. Sejam A = [αij ], B = [βij ] e AB = [γij ]. Temos que γij =
αik βkj . Então, aplicando as fórmulas (48) e (49):
X
det(AB) = (−1)σ γσ(1)1 · · · γσ(n)n
σ∈Sn
X n
X
= (−1)σ ασ(1)k1 βk1 1 · · · ασ(n)kn βkn n
σ∈Sn k1 ,...,kn =1
3.2. DETERMINANTE 97

n
X  X 
= βk1 1 · · · βkn n (−1)σ ασ(1)k1 · · · ασ(n)kn
k1 ,...,kn =1 σ∈Sn
n
(49) X
= βk1 1 · · · βkn n ε(k1 , . . . , kn ) det(A)
k1 ,...,kn =1
n
X
= det(A) ε(k1 , . . . , kn )βk1 1 · · · βkn n
k1 ,...,kn =1
(48)
= det(A) det(B). 

3.2.6. Determinante, independência linear e invertibilidade. Agora te-


mos que demonstrar a propriedade (8). Uma direção é consequência imediata das
propriedades (1) e (2) da definição 3.2.1, como mostra o seguinte lema.
Lema 3.2.14. Seja A ∈ M (n; K). Se as colunas de A forem linearmente depen-
dentes, então det(A) = 0.
Demonstração. Se n = 1, então det[α] = α, portanto a tese é óbvia. Se
n ≥ 2, seja A = [a1 | · · · | an ]. Pelo lema 1.5.5 item 2, uma coluna é combinação das
demais. Suponhamos que a1 = λ2 a2 + · · · + λn an , sendo a prova análoga nos demais
casos. Aplicando a propriedade 1 do lema 3.2.1 e o lema 3.2.2 (o qual é consequência
imediata da propriedade 2), temos:
det(A) = det[λ2 a2 + · · · + λn an | a2 | · · · | an ]
= λ2 det[a2 | a2 | · · · | an ] + · · · + λn det[an | a2 | · · · | an ]
= λ2 0 + · · · + λn 0 = 0. 
Corolário 3.2.15. Seja A ∈ M (n; K). Se as linhas de A forem linearmente
dependentes, então det(A) = 0.
Demonstração. Por causa do teorema 3.2.8, é suficiente aplicar o lema 3.2.14
a AT . 
O seguinte teorema demonstra as propriedades (8)–(10).
Teorema 3.2.16. Seja A ∈ M (n; K). Os seguintes fatos são equivalentes.
(1) det(A) 6= 0.
(2) A é invertı́vel.
(3) A famı́lia das colunas de A é independentes em Kn .
(4) A famı́lia das linhas de A é independentes em Kn .
Nesse caso, det(A−1 ) = det(A)
1
.

Demonstração. Pelo corolário 1.8.6 ou, equivalentemente, 2.6.11, sabemos


que (2) ⇔ (3) ⇔ (4). O lema 3.2.14 é equivalente a (1) ⇒ (3). Vamos concluir
a demonstração provando que (2) ⇒ (1). Como A−1 A = In , pelo teorema 3.2.13
temos que det(A−1 ) det(A) = 1, logo det(A) 6= 0. Ademais, det(A−1 ) = det(A)
1
. 
98 3. ÁLGEBRA DAS MATRIZES

3.2.7. Grupo das matrizes invertı́veis. Observamos um fato importante,


usando a seguinte notação.
Notação 3.2.17. Denotamos por GL(n; K) o conjunto das matrizes de ordem
n com determinante não nulo. ♦
Pelo teorema 3.2.16, GL(n; K) coincide com o conjunto das matrizes invertı́veis
de ordem n. Sejam A, B ∈ GL(n; K). Então det(AB) = det(A) det(B) 6= 0, logo
AB ∈ GL(n; K). Analogamente det(A−1 ) = det(A) 1
6= 0, logo A−1 ∈ GL(n; K). Isso
implica o seguinte:
• no conjunto GL(n; K) está bem definido o produto de matrizes, o qual é
associativo;
• como In ∈ GL(n; K), o produto em GL(n; K) possui um elemento neutro;
• todo elemento A ∈ GL(n; K) possui um inverso A−1 ∈ GL(n; K).
Por estas propriedades o conjunto GL(n; K), dotado da operação de produto, é um
grupo. Dado que o produto de matrizes não é comutativo, não se trata de um grupo
abeliano. Observamos que, como conjunto, GL(n; K) ⊂ M (n; K), mas não se trata
de um subespaço vetorial, pois a soma de matrizes invertı́veis pode não ser invertı́vel.
3.2.8. Regra de Laplace. Já destacamos que calcular o determinante, a partir
da definição (42), requer muitas contas para n ≥ 4. Na seção I.3.5.1 mostramos
uma técnica recursiva mais rápida, dita regra de Laplace. Vamos demostrar que é
equivalente à fórmula (42).
Definição 3.2.18. Seja A ∈ M (n; K) e sejam i, j ∈ {1, . . . , n}. A submatriz
complementar de A, de ı́ndice (i, j), é a matriz Aij ∈ M (n − 1; K) que se obtém
tirando a linha i e a coluna j a A. O complemento algébrico ou cofator de A, de
ı́ndice (i, j), é o número real AC
ij := (−1)
i+j
det(Aij ). ♦
Teorema 3.2.19 (Método de Laplace). Seja A = [αij ] ∈ M (n; K). Para qual-
quer i fixado entre 1 e n, temos:
n
X
(50) det(A) = αij AC
ij .
j=1

Analogamente, para qualquer j fixado entre 1 e n, temos:


Xn
(51) det(A) = αij AC
ij .
i=1

Demonstração. Comecemos provando a fórmula (51) para j = 1, aplicando a


fórmula (48) à matriz complementar Ai1 . As colunas de Ai1 são as colunas 2, . . . , n
de A, tirando a entrada i-ésima. As linhas de Ai1 são as linas 1, . . . , i − 1, i + 1, . . . n
de A, tirando a primeira entrada. Por isso:
Xn
(52) det(Ai1 ) = ε(k2 , . . . , kn )αk2 2 · · · αkn n ,
k2 ,...,kn =1
k2 ,...,kn 6=i
3.2. DETERMINANTE 99

sendo ε(k2 , . . . , kn ) a paridade da permutação correspondente do conjunto {1, . . . , i−


1, i + 1, . . . , n}. Se comparamos o conjunto {1, . . . , i − 1, i + 1, . . . , n} com o conjunto
{1, . . . , n}, obtido acrescentando i, temos que:
(53) ε(k2 , . . . , kn ) = (−1)i−1 ε(i, k2 , . . . , kn ).
De fato, seja σ : {1, . . . , i − 1, i + 1, . . . , n} → {1, . . . , i − 1, i + 1, . . . , n} a permutação
que ordena k2 , . . . , kn . Seja σ 0 : {1, . . . , n} → {1, . . . , n} a permutação que ordena
{i, k2 , . . . , kn }. Podemos construir σ 0 da seguinte maneira:
• aplicamos σ aos últimos n−1 elementos, obtendo {i, 1, . . . , i−1, i+1, . . . , n};
• levamos i na posição i-ésima, aplicando i − 1 transposições em sequência.
0
Por isso (−1)σ = (−1)i−1 (−1)σ . Isso demonstra (53) quando ambos os lados forem
permutações. Em caso contrário, em ambos os lados há uma repetição, portanto
(53) se torna 0 = 0.
A partir da fórmula (53) podemos verificar que:
n
X
(54) det(Ai1 ) = (−1)i+1 ε(i, k2 , . . . , kn )αk2 2 · · · αkn n .
k2 ,...,kn =1

De fato, se um dos ı́ndices k2 , . . . , kn for igual a i, então ε(i, k2 , . . . , kn ) = 0, logo


a linha i de A não contribui à soma. O mesmo acontece se {k2 , . . . , kn } contiver
repetições. Se k2 , . . . , kn 6= i e {k2 , . . . , kn } for uma permutação, então as fórmulas
(52) e (53) implicam imediatamente a (54). Portanto, o lado direito da fórmula (51),
para j = 1, se torna:
n
X n
X n
X
i+1
(−1) αi1 det(Ai1 ) = ε(i, k2 , . . . , kn )αi1 αk2 2 · · · αkn n .
i=1 i=1 k2 ,...,kn =1

Chamando i de k1 , obtemos a fórmula (48).


Seja agora j genérico em (51). Seja A0 = [αij
0
] a matriz obtida a partir de A,
levando a coluna j-ésima na primeira, aplicando j − 1 transposições em sequência.
Pela fórmula (37), temos que det(A0 ) = (−1)j−1 det(A). Temos que Aij = A0i1 e
0
αi1 = αij , portanto:
n
X
0 0
det(A) = (−1) j−1
det(A ) = (−1) j−1
(−1)i+1 αi1 det(A0i1 )
i=1
n
X
= (−1)i+j αij det(Aij ).
i=1

Isso prova (51). A fórmula (50) é equivalente à (51), aplicada a AT . Como det(A) =
det(AT ), temos a tese. 
Corolário 3.2.20. Seja A uma matriz triangular superior, ou seja, tal que
αij = 0 para todo i > j. Então o determinante de A é o produto das entradas da
diagonal principal, ou seja:
(55) det(A) = α11 · · · αnn .
100 3. ÁLGEBRA DAS MATRIZES

O mesmo vale para A triangular inferior, ou seja, tal que αij = 0 para todo i < j.
Em particular, a fórmula (55) vale para A diagonal.
Demonstração. Se A for triangular superior, é suficiente aplicar a regra de
Laplace às colunas de A em sequência, a partir da primeira. Se A for triangular
inferior, aplicamos a regra de Laplace às linhas. 
Exercı́cio 3.2.21. Calcule o determinante da seguinte matriz usando o método de
Laplace:
 
4 0 0 2 1
1 0 1 1 0 
 
A=  1 2 4 1 −6 .

0 0 0 1 1 
1 0 0 1 −1
Resolução. Escolhemos a segunda coluna, pois contém quatro zeros. Temos:
 
4 0 2 1
1 1 1 0
det(A) = −2 det 
0
.
0 1 1
1 0 1 −1
Escolhemos de novo a segunda coluna, obtendo:
 
4 2 1
det(A) = −2 det 0 1 1  .
1 1 −1
Escolhemos a segunda linha. Obtemos:
    
4 1 4 2
det(A) = −2 det − det = 14.
1 −1 1 1
Obviamente escolhendo outras linhas ou outras colunas obterı́amos o mesmo resultado. ♦

3.2.9. Determinante e escalonamento. Podemos também calcular o deter-


minante de uma matriz através do escalonamento. De fato, seja A ∈ M (n; K) e
seja A0 uma matriz escalonada, que se obtém de A aplicando as três operações
fundamentais, ou seja:
(1) trocar duas linhas ou duas colunas de A;
(2) multiplicar uma linha ou uma coluna de A por uma constante λ não nula;
(3) acrescentar a uma linha ou a uma coluna uma combinação linear das demais.
Podemos atuar também com as colunas, pois não temos o problema de trocar as
variáveis entre si e com os termos constantes, como acontece com um sistema linear.
Quando aplicamos a operação (3), o determinante não muda. Quando aplicamos
a operação (1), o determinante muda de sinal. Quando aplicamos a operação (2),
o determinante fica multiplicado por λ. Enfim, o determinante de A0 é o produto
dos elementos da diagonal principal; em particular, se o número de pivot coincide
com a ordem da matriz, então o determinante é o produto dos pivot, em caso
contrário é nulo. Portanto, suponhamos de termos aplicado n vezes a operação (2),
3.3. CÁLCULO DA MATRIZ INVERSA 101

multiplicando por λ1 , . . . , λn , e de termos aplicado k vezes a operação (1). Então:

(−1)k
det(A) = det(A0 ).
λ1 · · · λn
Exercı́cio 3.2.22. Calcule, através do método do escalonamento, o determinante da
seguinte matriz:
 
1 2 2
A = 1 −1 −1 .
1 3 −2

Resolução. Escalonemos a matriz.


   
1 2 2 1 2 2
1 −1 −1 II → II − I 0 −3 −3 II → − 31 II
III → III − I
1 3 −2 0 1 −4
   
1 2 2 1 2 2
0 1 1  III → III − II 0 1 1 .
0 1 −4 0 0 −5

Portanto det(A) = −3(1 · 1 · (−5)) = 15. ♦

3.3. Cálculo da matriz inversa


Esta seção é quase idêntica à I.3.6. Foi inclusa para que este capı́tulo não ficasse
incompleto.

3.3.1. Complementos algébricos e matriz inversa. Vamos mostrar uma


generalização das fórmulas (50) e (51), que se revelará útil daqui a pouco. Nas
fórmulas (50) e (51), escolhemos uma linha ou uma coluna de A e, para cada entrada
αij , consideramos o complemento algébrico correspondente AC ij . Suponhamos de
fixar a linha i-ésima de A e de calcular os complementos algébricos a respeito da
linha i0 -ésima, onde i0 pode ser igual ou diferente de i, à escolha. Obtemos termos
da forma αij AC i0 j . Seja δij o sı́mbolo de Kronecker, ou seja, δii = 1 e δij = 0 para
i 6= j. Temos:
n
X n
X
(56) δii0 det(A) = αij AC
i0 j δjj 0 det(A) = αij AC
ij 0 .
j=1 i=1

De fato, se i = i0 ou j = j 0 , as fórmulas (56) coincidem com as (50) e (51). Se


i 6= i0 , suponhamos de substituir a linha i0 -ésima de A por outra cópia da linha
i-ésima, obtendo uma matriz A0 . Apliquemos a fórmula (50) a A0 , a respeito da
linha i0 -ésima. Obtemos precisamente a primeira fórmula de (56), a qual, portanto,
coincide com o determinante de uma matriz com duas linhas iguais, logo o resultado
é 0. O mesmo vale a respeito das colunas. Agora podemos construir explicitamente
a inversa de uma matriz com determinante não nulo.
102 3. ÁLGEBRA DAS MATRIZES

Lema 3.3.1. Seja A ∈ GL(n; K). Temos que:


 C
A ··· AC

−1 1  .11 n1
..  .
(57) A = .. .
det(A)
AC1n · · · AC
nn

Destacamos que os ı́ndices do lado direito de (57) são transpostos, ou seja, a entrada
(i, j) de A−1 é det(A)
1
AC
ji .

Demonstração. Seja B = [βij ] a matriz definida pelo lado direito de (57).


Seja AB = [γij ]. Pela fórmula (56), temos:
n n
X 1 X (56)
γij = αik βkj = αik AC
jk = δij .
k=1
det(A) k=1

Como [δij ] = In , temos que AB = In . Podemos provar da mesma maneira que


BA = In , usando a fórmula a respeito das colunas. 

Observação 3.3.2. A fórmula (57) pode ser considerada outro modo de provar
que, se det(A) 6= 0, então A é invertı́vel. De fato, construı́mos explicitamente a
inversa. ♦
Exercı́cio 3.3.3. Inverta a matriz:
 
0 1 1
A = −1 1 −1
2 −1 2

usando a fórmula (57).

Resolução. Aplicando a regra de Laplace à primeira linha, obtemos:


   
−1 −1 −1 1
det(A) = − det + det = 0 + (−1) = −1.
2 2 2 −1

A matriz dos complementos algébricos é dada por:


 
1 −1
− −1 −1 −1 1


 −1 2 2 −1 
2
2  
  1 0 −1
C C
 1 1 0 1 0 1  

− −1 2
A := [Aij ] =  − = −3 −2 2  .
2 2
2 −1 

 1 1

0
 −2 −1 1
1 0 1 
1 −1 − −1 −1 −1

1

Portanto, A−1 = −(AC )T , ou seja:


 
−1 3 2
A−1 = 0 2 1 .
1 −2 −1 ♦
3.3. CÁLCULO DA MATRIZ INVERSA 103

3.3.2. Duplo escalonamento. Podemos também calcular a matriz inversa


através do duplo escalonamento, como mostra o seguinte exemplo.
Exemplo 3.3.4. Consideremos a matriz A do exercı́cio 3.3.3 e escrevamos A e I3 ,
formando uma matriz de ordem (3, 6):
 
0 1 1 1 0 0
[A | I3 ] = −1 1 −1 0 1 0 .
2 −1 2 0 0 1
Agora aplicamos o duplo escalonamento à matriz [A | I3 ], atuando somente com as linhas,
de modo que o lado esquerdo se torne igual a I3 .
 
0 1 1 1 0 0
−1 1 −1 II → −II
0 1 0
I ↔ II
2 −1 2 0 0 1
 
1 −1 1 0 −1 0
0 1 1 1 0 0 III → III − 2I
2 −1 2 0 0 1
 
1 −1 1 0 −1 0
0 1 1 1 0 0 III → III − II
0 1 0 0 2 1
 
1 −1 1 0 −1 0
0 1 I → I + III
1 1 0 0
II → II + III
0 0 −1 −1 2 1
 
1 −1 0 −1 1 1
0 1 I → I + II
0 0 2 1
III → −III
0 0 −1 −1 2 1
 
1 0 0 −1 3 2
0 1 0 0 2 1 .
0 0 1 1 −2 −1
A matriz que aparece do lado direito é A−1 . ♦

Vamos entender porque está técnica é válida. Quando consideramos uma ma-
triz A, que supomos por simplicidade ser de ordem 3, e aplicamos as operações
fundamentais (1), (2) e (3) às linhas, cada operação corresponde à multiplicação à
esquerda por uma matriz fixada. Por exemplo, trocar a primeira e a segunda linha
corresponde ao seguinte produto de matrizes:
    
0 1 0 a11 a12 a13 a21 a22 a23
1 0 0 a21 a22 a23  = a11 a12 a13  .
0 0 1 a31 a32 a33 a31 a32 a33
Multiplicar a segunda linha por λ equivale ao seguinte produto:
    
1 0 0 a11 a12 a13 a11 a12 a13
0 λ 0 a21 a22 a23  = λa21 λa22 λa23  .
0 0 1 a31 a32 a33 a31 a32 a33
104 3. ÁLGEBRA DAS MATRIZES

Enfim, acrescentar à segunda linha um múltiplo da terceira equivale ao seguinte:


    
1 0 0 a11 a12 a13 a11 a12 a13
0 1 λ a21 a22 a23  = a21 + λa31 a22 + λa32 a23 + λa33  .
0 0 1 a31 a32 a33 a31 a32 a33
Por isso, aplicando o duplo escalonamento à matriz A, multiplicamos A à esquerda
por algumas matrizes E1 , . . . , Ek , de modo que Ek · · · E1 A = I3 , logo, pela ob-
servação 3.5.3, Ek · · · E1 = A−1 . Do outro lado da matriz, aplicamos as mesmas
operações, partindo de I3 ao invés de A, logo obtemos a matriz Ek · · · E1 I3 =
Ek · · · E1 = A−1 .
Observação 3.3.5. A mesma técnica vale aplicando as operações fundamen-
tais somente as colunas, pois, neste caso, as operações fundamentais consistem em
multiplicar A à direita por algumas matrizes fixadas. Isso equivale a escalonar a
matriz  
A
In
e chegar à matriz  
In
.
A−1
O que não está permitido é atuar com as linhas e as colunas ao mesmo tempo,
pois isso equivale a multiplicar A à direita e à esquerda por algumas matrizes, mas,
aplicando as mesmas operações a In , não chegamos à inversa de A. Por exemplo, se
E1 AE2 = In , isso não implica que E1 E2 = A−1 . ♦

3.4. Posto de uma matriz


Vamos agora introduzir o conceito de posto, o qual mede o número máximo
de linhas e de colunas independentes de uma matriz. O determinante só é bem
definido para uma matriz quadrada, enquanto o posto é bem definido para qualquer
matriz. Entre a noção de posto e a de determinante há uma ligação muito forte,
como mostraremos daqui a pouco.
3.4.1. Introdução ao conceito de posto. Seja A ∈ M (n, m) uma matriz.
Se n = m, sabemos que, se as colunas forem dependentes, então det(A) = 0, logo
também as linhas são dependentes e vice-versa. Isso significa que uma relação de
dependência linear entre as colunas se reflete em uma relação de dependência linear
entre as linhas e vice-versa. Mostremos isso diretamente em um exemplo. Sejam
n = m = 3 e suponhamos que a terceira coluna de A seja combinação linear das
primeiras duas. Logo, existem λ, µ ∈ R tais que:
 
α11 α12 λα11 + µα12
A = α21 α22 λα21 + µα22  .
α31 α32 λα31 + µα32
Consideremos as primeiras duas componentes das linhas de A, ou seja, os vetores
(α11 , α12 ), (α21 , α22 ) e (α31 , α32 ). Trata-se de três vetores de R2 , portanto são de-
pendentes. Suponhamos que o terceiro seja combinação dos primeiros dois. Logo,
3.4. POSTO DE UMA MATRIZ 105

existem λ0 , µ0 ∈ R tais que:


 
α11 α12 λα11 + µα12
A= α21 α22 λα21 + µα22 .
0 0 0 0 0 0 0 0
λ α11 + µ α21 λ α12 + µ α22 λ(λ α11 + µ α21 ) + µ(λ α12 + µ α22 )
Podemos escrever a entrada α33 da seguinte maneira:
 
α11 α12 λα11 + µα12
A= α21 α22 λα21 + µα22 .
0 0 0 0 0 0
λ α11 + µ α21 λ α12 + µ α22 λ (λα11 + µα12 ) + µ (λα21 + µα22 )
Isso mostra que a terceira linha é combinação linear das primeiras duas. Portanto,
partindo de uma relação de dependência linear entre as colunas, obtivemos uma
entre as linhas. Consideremos agora a sub-matriz de ordem 2:
 
0 α11 α12
A = .
α21 α22
Suponhamos que det(A0 ) 6= 0. Nesse caso as duas colunas e as duas linhas de A0
são independentes, portanto também as primeiras duas linhas e as primeiras duas
colunas de A são, como é fácil verificar. Portanto, nesse caso, o número máximo
de colunas independentes de A é 2. Em particular, as primeiras duas colunas de
A formam uma sub-famı́lia independente de 2 elementos, pois contêm as colunas
de A0 . Analogamente, o número máximo de linhas independentes de A é 2. Em
particular, as primeiras duas linhas de A formam uma sub-famı́lia independente de
2 elementos, pois contêm as linhas de A0 .
Suponhamos, pelo contrário, que det(A0 ) = 0. Então as duas colunas de A0 são
dependentes. Suponhamos que a segunda seja múltiplo da primeira. Então existe
ν ∈ R tal que:  
0 α11 να11
A = .
α21 να21
Os dois números α11 e α21 , sendo dois vetores de R1 , são dependentes. Suponhamos
que exista ν 0 tal que α21 = ν 0 α11 (isso significa que excluı́mos o caso α11 = 0 e
α21 6= 0). Então:  
0 α11 να11
A = 0 .
ν α11 νν 0 α11
Isso mostra que também a segunda linha de A0 é múltiplo da primeira, como para
as colunas. Logo:
 
α11 να11 λα11 + µνα11
A= ν 0 α11 νν 0 α11 λν 0 α11 + µνν 0 α11 .
0 0 0 0 0 0 0 0 0 0
λ α11 + µ ν α11 λ να11 + µ νν α11 λ (λα11 + µνα11 ) + µ (λν α11 + µνν α11 )
Com isso vemos que as colunas de A são múltiplas da primeira e o mesmo vale para
as linhas.
Enfim, consideremos a sub-matriz A00 = [α11 ] de ordem 1. Se det(A00 ) 6= 0, ou
seja, α11 6= 0, a única linha de A00 é independente e o mesmo vale para a única
coluna de A. Isso implica que também a primeira coluna de A seja independente e
106 3. ÁLGEBRA DAS MATRIZES

o mesmo vale para a primeira linha de A. Portanto, o número máximo de colunas


independentes de A é 1. Em particular, a primeira coluna forma uma sub-famı́lia
independente de um elemento, pois contém a coluna de A00 . O mesmo vale para a
primeira linha de A. Se, pelo contrário, det(A00 ) = 0, ou seja, α11 = 0, então A é a
matriz nula, portanto não existem linhas independentes nem colunas independentes
de A.
Afinal, a menos da ordem das linhas e das colunas, temos quatro casos possı́veis,
ou seja: det(A) 6= 0; det(A) = 0 e det(A0 ) 6= 0; det(A) = det(A0 ) = 0 e det(A00 ) 6= 0;
det(A) = det(A0 ) = det(A00 ) = 0. Em todos estes casos, o número máximo de
colunas independentes de A coincide com o número máximo de linhas independentes
de A. Este número, que chamamos de k, coincide com o máximo entre as ordens
das sub-matrizes quadradas de A com determinante não nulo. Enfim, se B for uma
tal sub-matriz, uma famı́lia independente de k colunas é formada pelas que contêm
as colunas de B; o mesmo vale para as linhas.
Suponhamos agora de partir de uma matriz não quadrada. Seja A ∈ M (m, n)
com m < n. Então n − m colunas de A são combinação das demais, pois as colunas
são n vetores de Rm . Portanto, considerando a sub-matriz quadrada A0 que se
obtêm tirando estas n − m colunas, atuamos como acabamos de mostrar e chegamos
às mesmas conclusões. O mesmo discurso vale se m > n.

3.4.2. Preliminares algébricos. Em seguida, usamos a seguinte notação. Como


já fizemos, denotamos por:
A = [a1 | · · · | an ]
uma matriz cujas colunas sejam a1 , . . . , an . Portanto, denotamos por:
AT = [a01 | · · · | a0n ]
uma matriz cujas linhas sejam (a01 )T , . . . , (a0n )T . Em geral, denotamos por v =
(v1 , . . . , vn )T ∈ Rn um vetor coluna, portanto, quando precisamos de um vetor
linha, o denotamos por v T = (v1 , . . . , vn ) ∈ Rn .
Sejam A = [a1 | · · · | an ] ∈ M (m, n) e v = (v1 , . . . , vn )T ∈ Rn . É fácil verificar, a
partir da definição de produto, que:
(58) Av = v1 a1 + · · · + vn an .
Sejam A = [a1 | · · · | an ] ∈ M (m, n) e B = [βij ] = [b1 | · · · | br ] ∈ M (n, r). Seja
AB = [c1 | · · · | cr ] ∈ M (n, r). Pela fórmula (58), temos:
(59) ci = β1i a1 + · · · + βni an .
Isso significa que as colunas do produto AB são combinações lineares das colunas
de A, com coeficientes dados pelas entradas das colunas correspondentes de B.
Valem resultados análogos a respeito das linhas. Sejam AT = [a01 | · · · | a0m ],
sendo A ∈ M (m, n), e v T = (v1 , . . . , vm ) ∈ Rm . Temos:
(60) v T A = v1 (a01 )T + · · · + vm (a0m )T .
Sejam AT = [a01 | · · · | a0m ], sendo A ∈ M (m, n), e B T = [βji ] = [b01 | · · · | b0r ], sendo
B ∈ M (r, m). Seja (BA)T = [c01 | · · · | c0r ], sendo BA ∈ M (r, n). Pela fórmula (60),
3.4. POSTO DE UMA MATRIZ 107

temos:
(61) c0i = βi1 a01 + · · · + βim a0m .
Isso significa que as linhas do produto BA são combinações lineares das linhas de
A, com coeficientes dados pelas entradas das linhas correspondentes de B.
Lema 3.4.1. Seja A ∈ M (m, n).
• Seja n > m e seja A0 ∈ M (m, m) a sub-matriz formada pelas primeiras m
colunas. Existe U ∈ M (m, n − m) tal que:
 
A = A0 A0 U
se, e somente se, as colunas m + 1, . . . , n de A são combinação linear das
primeiras m.
• Seja n < m e seja A0 ∈ M (n, n) a sub-matriz formada pelas primeiras n
linhas. Existe V ∈ M (m − n, n) tal que:
 
A0
A=
V A0
se, e somente se, as linhas n + 1, . . . , m de A são combinação linear das
primeiras n.
• Seja 1 ≤ k ≤ min{n, m} e seja A0 ∈ M (k, k) a sub-matriz quadrada que
interseta as primeiras k linhas e k colunas de A. Se existirem U ∈ M (m, n−
k) e V ∈ M (m − k, n) tais que:
 
A0 A0 U
A=
V A0 V A0 U
então as colunas k + 1, . . . , n de A são combinação linear das primeiras k
e as linhas k + 1, . . . , m de A são combinação linear das primeiras k.
Demonstração. O primeiro enunciado segue da fórmula (59), o segundo da
fórmula (61) e o terceiro é consequência imediata dos primeiros dois. 
3.4.3. Definição de posto. Lembramos que uma sub-matriz de uma matriz
A é uma matriz A0 que se obtém, a partir de A, tirando algumas linhas e algumas
colunas. Se A ∈ M (m, n), existem sub-matrizes quadradas de A de todas os ordens
entre 1 e min{n, m}.
Definição 3.4.2. Seja A ∈ M (m, n) uma matriz. Se A 6= 0, o posto de A é
o máximo entre as ordens das sub-matrizes quadradas de A com determinante não
nulo. O indicamos por rk(A). Se A = 0, pomos rk(0) = 0. ♦
Observação 3.4.3. E claro que rk(A) = rk(AT ), pois as sub-matrizes quadradas
de AT são as transpostas das sub-matrizes quadradas de A e o determinante é
invariante por transposição. ♦
Exemplo 3.4.4. Calcular o posto da matriz:
 
1 0 1
A= .
1 0 2
108 3. ÁLGEBRA DAS MATRIZES

As sub-matrizes quadradas de ordem 2 de A são:


     
0 1 0 00 0 1 1 1
A1 = A1 = A000
1 = .
1 0 0 2 1 2
Temos que det(A01 ) = det(A001 ) = 0, mas det(A000
1 ) = 1 6= 0, logo rk(A) = 2. ♦
Exemplo 3.4.5. Calcular o posto da matriz:
 
0 1
A = 0 2 .
0 0
As sub-matrizes quadradas de ordem 2 de A são:
     
0 0 1 00 0 1 0 2
A1 = A1 = A000
1 = .
0 2 0 0 0 0
Todas têm determinante nulo, portanto passamos às sub-matrizes de ordem 1. Te-
mos que det[α12 ] = det[1] = 1 6= 0, logo rk(A) = 1. ♦
Agora explicamos o que temos de provar no resto desta seção. Seja A ∈ M (m, n)
não nula e seja rk(A) = k. Obviamente 1 ≤ k ≤ min{n, m}. Seja A0 uma sub-
matriz quadrada de A de ordem k, tal que det(A0 ) 6= 0. Isso significa que A0
é uma entre as sub-matrizes quadradas maximais com determinante não nulo. A
matriz A0 interseta k colunas de A, que indicamos por ai1 , . . . , aik , e k linhas de A,
que indicamos por a0j1 , . . . , a0jk . Vamos provar que {ai1 , . . . , aik } é uma sub-famı́lia
maximal independente entre as colunas de A e que {a0j1 , . . . , a0jk } é uma sub-famı́lia
maximal independente entre as linhas de A. Isso implica, em particular, que o
número de elementos das duas famı́lias é o mesmo. Portanto, a dimensão do sub-
espaço de Rm , gerado pelas colunas de A, coincide com a do sub-espaço de Rn ,
gerado pelas linhas de A, sendo ambas iguais ao posto de A.
Para provarmos isso, precisamos simplificar a notação o mais possı́vel. Portanto,
vamos permutar as colunas e as linhas de A, de modo que a sub-matriz A0 intersete
as primeiras k colunas e as primeiras k linhas de A. Isso significa que A0 se obtém
tirando as colunas k + 1, . . . , m e as linhas k + 1, . . . , n de A, ficando portanto acima
à esquerda dentro de A. Todavia, antes de aplicarmos essa dupla permutação (co-
lunas e linhas), temos que verificar que o número máximo de linhas e de colunas
independentes não muda. Aliás, verificamos que as colunas de A que intersetam A0 ,
na posição original, são uma sub-famı́lia maximal independente se, e somente se,
após a permutação, as primeiras k colunas de A são uma sub-famı́lia maximal inde-
pendente. O mesmo vale a respeito das linhas. Para verificarmos isso, precisamos
de uns lemas preliminares.

Uma permutação σ ∈ Sn define uma aplicação linear:


σ : Rn → Rn
(x1 , . . . , xn ) 7→ (xσ(1) , . . . , xσ(n) ).
É fácil verificar que σ é um automorfismo.
3.4. POSTO DE UMA MATRIZ 109

Observação 3.4.6. Dada σ ∈ Sn , aplicamos a permutação σ às componentes


de x = (x1 , . . . , xn ) ∈ Rn . Como σ manda i em σ(i), queremos que a compo-
nente i-ésima seja mandada na componente σ(i)-ésima. Portanto, queremos que
(x1 , . . . , xn ) 7→ (y1 , . . . , yn ) tal que yσ(i) = xi . Isso significa que yi = xσ−1 (i) . Logo,
para mandarmos a componente i-ésima na componente σ(i)-ésima, temos que aplicar
σ −1 . ♦
Definição 3.4.7. Sejam A ∈ M (m, n), σ ∈ Sn e ρ ∈ Sm . A matriz Aρσ ∈
M (m, n) é a matriz obtida aplicando σ às colunas de A e ρ às linhas da matriz
resultante ou vice-versa. Se A = [αij ] e Aρσ = [βij ], temos:
βij = αρ−1 (i)σ−1 (j) .

Lema 3.4.8. Seja A ∈ M (m, n) e sejam {a1 , . . . , an } e {(a01 )T , . . . , (a0m )T } as co-
lunas e as linhas de A. Dadas σ ∈ Sn e ρ ∈ Sm , sejam {b1 , . . . , bn } e {(b01 )T , . . . , (b0m )T }
as colunas e as linhas de Aρσ . Temos que {ai1 , . . . , aik }, com 1 ≤ k ≤ n, é
uma sub-famı́lia maximal independente entre as colunas de A se, e somente se,
{bσ(i1 ) , . . . , bσ(ik ) } é uma sub-famı́lia maximal independente entre as colunas de Aρσ .
Analogamente, temos que {(a0j1 )T , . . . , (a0jh )T }, com 1 ≤ h ≤ n, é uma sub-famı́lia
maximal independente entre as linhas de A se, e somente se, {(b0ρ(j1 ) )T , . . . , (b0ρ(jh ) )T }
é uma sub-famı́lia maximal independente entre as linhas de Aρσ .
Demonstração. Aplicando σ às colunas de A, pela observação 3.4.6 obte-
mos a matriz C = [c1 | · · · | cn ] = [aσ−1 (1) | · · · | aσ−1 (n) ], ou seja, ai = cσ(i) . Logo,
{ai1 , . . . , aik } é uma famı́lia maximal independente se, e somente se, {cσ(i1 ) , . . . , cσ(ik ) }
é. Agora aplicamos ρ às linhas de C e obtemos B = [b1 | · · · | bn ] = [ρ −1 (c1 ) | · · · |
ρ −1 (cn )], ou seja, bi = ρ −1 (ci ). Como ρ é um automorfismo de Rn , {cσ(i1 ) , . . . , cσ(ik ) }
é uma famı́lia maximal independente se, e somente se, {bσ(i1 ) , . . . , bσ(ik ) } é, logo ob-
temos a tese. A respeito das linhas, vale a mesma prova, aplicando antes ρ às linhas
de A e depois σ às colunas da matriz resultante. 
Graças ao lema 3.4.8, podemos permutar livremente as linhas e as colunas de uma
matriz, sem perder informações a respeito das sub-famı́lias maximais independentes
de linhas e de colunas. Portanto, como adiantamos no parágrafo introdutório, dada
uma matriz de posto k e uma sub-matriz quadrada A0 de ordem k com determinante
não nulo, podemos permutar linhas e colunas para que A0 fique acima à esquerda.
Supondo A0 nessa posição, é mais fácil provar que as linhas k + 1, . . . , n e as colunas
k +1, . . . , m de A são combinação linear das primeiras k, as quais são independentes.
Esse é objetivo das seguintes proposições.
Lema 3.4.9. Seja A = {v 1 , . . . , v k } ⊂ Rn uma famı́lia dependente. Seja 1 ≤
h ≤ k e sejam 1 ≤ i1 < · · · < ih ≤ k. Seja v 0i ∈ Rh o vetor obtido, a partir de v i ,
considerando as componentes i1 , . . . , ih . Então A0 = {v 01 , . . . , v 0k } ⊂ Rh é também
dependente.
Demonstração. Se λ1 v 1 + · · · + λk v k = 0 e λi 6= 0, então também λ1 v 01 + · · · +
λk v 0k = 0, logo A0 é dependente. 
110 3. ÁLGEBRA DAS MATRIZES

Teorema 3.4.10 (Teorema de Kronecker). Seja A ∈ M (m, n) não nula. Seja


rk(A) = k e suponhamos que a sub-matriz quadrada A0 de ordem k, obtida tirando
as colunas k + 1, . . . , n e as linhas k + 1, . . . , m, tenha determinante não nulo. Então
existem uma matriz U ∈ M (k, n − k) e uma matriz V ∈ M (m − k, k) tais que:
 
A0 A0 U
A= .
V A0 V A0 U
Em particular, isso implica que as primeiras k colunas e as primeiras k linhas de A
sejam sub-famı́lias maximais independentes.
Demonstração. Por hipótese temos que:
 
A0 B0
A= .
C0 D0
Como det(A0 ) 6= 0, a matriz A0 é invertı́vel pelo teorema 3.2.16. Sejam U = A−1 0 B0
e V = C0 A−1 0 . Obtemos:  
A0 A0 U
A= .
V A0 D0
Se n = k ou m = k, a prova já se conclui. Em geral, temos que provar que
D0 = V A0 U . Sejam {u1 , . . . , un−k } as colunas de U e sejam {(v 01 )T , . . . , (v 0m−k )T }
as linhas de V . Seja D0 = [dij ]. Fixemos i entre 1 e m − k e j entre 1 e n − k e
consideremos a sub-matriz de A que interseta as linas 1, . . . , k, k + i e as colunas
1, . . . , k, k + j de A. Obtemos a sub-matriz:
 
A0 A0 uj
A1 = 0 .
v i A0 dij
Como rk(A) = k, temos que det(A1 ) = 0. Consideremos o seguinte produto de
matrizes:
    
A0 A0 uj Ik −uj A0 0
= .
(v 0i )T A0 dij 0T 1 (v 0i )T A0 −(v 0i )T A0 uj + dij
Escrevamos este produto como A1 X = Y . Como det(A1 ) = 0, temos que det(Y ) =
0. Pela regra de Laplace aplicada à última coluna de Y , temos det(Y ) = (−(v 0i )T A0 uj +
dij ) det(A0 ) = 0. Sendo det(A0 ) 6= 0, temos dij = (v 0i )T A0 uj , logo D0 = V A0 U .
Pelo lema 3.4.1, as colunas k + 1, . . . , n e as linhas k + 1, . . . , m de A são com-
binação linear das primeiras k. Sendo det(A0 ) 6= 0, as colunas e as linhas de A0 são
independentes, portanto, pelo lema 3.4.9, as primeiras k linhas de A e as primeiras
k colunas de A são independentes. Isso prova que formam uma sub-famı́lia maximal
independente, pois formam uma base do sub-espaço gerado respetivamente pelas
colunas e pelas linhas. 
Corolário 3.4.11. Seja A ∈ M (m, n) não nula. Sejam rk(A) = k e A0 uma
sub-matriz quadrada de ordem k de A tal que det(A0 ) 6= 0. Sejam A = {ai1 , . . . , aik }
a famı́lia das colunas de A que intersetam A0 e A0 = {(a0j1 )T , . . . , (a0jk )T } a famı́lia
das linhas de A que intersetam A0 . Então A é uma sub-famı́lia maximal indepen-
dente entre as colunas de A e A0 é uma sub-famı́lia maximal independente entre as
linhas de A.
3.4. POSTO DE UMA MATRIZ 111

Demonstração. Sejam σ ∈ Sn e ρ ∈ Sm duas permutações tais que σ(i1 ) =


1, . . . , σ(ik ) = k e ρ(j1 ) = 1, . . . , ρ(jk ) = k. Obtemos uma matriz Aρσ que satisfaz
as hipóteses do teorema de Kronecker, logo, as primeiras k linhas e as primeiras k
colunas de Aρσ são uma sub-famı́lia maximal independente. Pelo lema 3.4.8, A e A0
são sub-famı́lias maximais independentes. 
Corolário 3.4.12. Seja A ∈ M (m, n). Os seguintes seis números naturais
coincidem:
(1) o posto de A;
(2) o posto de AT ;
(3) o número máximo de colunas independentes de A (equivalentemente, de
linhas independentes de AT );
(4) o número máximo de linhas independentes de A (equivalentemente, de co-
lunas independentes de AT );
(5) a dimensão da imagem da função linear A : Rn → Rm ;
(6) a dimensão da imagem da função linear AT : Rm → Rn .
Demonstração. Os primeiros quatro coincidem pelo corolário 3.4.11 (cfr. ob-
servação 3.4.3). Pelo lema 2.2.9, temos que (3) = (5) e (4) = (6). 
Exemplo 3.4.13. Dependendo do parâmetro k ∈ R, achar uma base do seguinte
sub-espaço vetorial de R4 :
     3 
1 2 k +k
1  k   1 
2 , −1 ,  1 i.
h     
k 0 0
Seja A ∈ M (4, 3) a matriz cujas colunas são os vetores dados. Temos que achar uma
sub-famı́lia maximal independente entre as colunas de A. Portanto, calculamos o
posto de A procurando uma sub-matriz quadrada de ordem máximo com determi-
nante não mulo. Comecemos pela ordem 3. Entre as sub-matrizes quadradas de
ordem 3, a mais prática é a formada pelas linhas II, III e IV, pois, dessa maneira,
excluı́mos a entrada k 3 + k. Aplicando a regra de Laplace à última linha, temos que:
 
1 k 1  
k 1
det 2 −1 1 = k det
  = k(k + 1).
−1 1
k 0 0
Portanto, para k 6= 0, −1, os três vetores são independentes, pois formam uma sub-
famı́lia maximal independente das colunas de A, logo são uma base do sub-espaço
que geram.
Seja k = 0. Temos:  
1 2 0
1 0 1
A= 2 −1 1 .

0 0 0
O fato que um determinante de ordem 3 seja nulo não significa que também os
demais sejam, portanto temos que continuar a analisar as sub-matrizes quadradas
112 3. ÁLGEBRA DAS MATRIZES

de ordem 3. Como a última linha de A é nula, a única sub-matriz de ordem 3


interessante é a formada pelas linhas I, II e III. Aplicando a regra de Laplace à
segunda linha temos:
 
1 2 0    
2 0 1 2
det 1 0 1 = − det
  − det = −7.
−1 1 2 −1
2 −1 1
Portanto, também para k = 0 os três vetores são independentes, logo são uma base
do sub-espaço que geram.
Enfim, seja k = −1. Temos:
 
1 2 −2
 1 −1 1 
A=  2 −1 1  .

−1 0 0
Em princı́pio terı́amos que continuar a análise das sub-matrizes quadradas de ordem
3. Todavia, reparamos que a terceira colunas é múltipla da segunda, portanto pode
ser tirada. De fato, uma sub-famı́lia maximal independente das primeiras duas é
também uma sub-famı́lia maximal independente das três colunas. Logo, sobra a
sub-matriz A0 ∈ M (4, 2) formada pelas primeiras duas colunas, cujo posto é menor
ou igual a 2. Considerando a sub-matriz de ordem 2 formada pelas linhas III e IV
temos:  
2 −1
det = −1.
−1 0
Portanto, as duas colunas são independentes, logo formam uma sub-famı́lia maximal
independente.
Afinal, para k 6= −1, os três vetores são uma base do sub-espaço que geram.
Para k = −1, uma base é formada pelos primeiros dois vetores. ♦
O exercı́cio precedente pode ser comparado com o ??, pois se trata de duas
técnicas diferentes para achar o mesmo resultado.
3.4.4. Posto através do escalonamento. Podemos também calcular o posto
de uma matriz através do escalonamento. De fato, seja A ∈ M (m, n) e seja A0 uma
matriz escalonada, que se obtém de A aplicando as três operações fundamentais, ou
seja:
(1) trocar duas linhas ou duas colunas de A;
(2) multiplicar uma linha ou uma coluna de A por uma constante λ não nula;
(3) acrescentar a uma linha ou a uma coluna uma combinação linear das demais.
Podemos atuar também com as colunas, pois não temos o problema de atuar com as
variáveis, como acontece com um sistema linear. Acrescentaremos um comentário a
respeito disso. Quando aplicamos as operações, o posto não muda. Afinal, o posto
de A0 é o número de pivot, pois é imediato verificar que as colunas e as linhas de A0 ,
que contêm um pivot, formam uma sub-famı́lia maximal independente. O problema
de trocar linhas ou colunas consiste no fato que pode mudar a posição de uma sub-
famı́lia maximal independente. Logo, se, por exemplo não trocamos nenhum par de
3.5. TEOREMA DE ROUCHÉ-CAPELLI 113

colunas, as colunas que, na matriz original A, ocupam as posições correspondentes


aos pivot, formam uma sub-famı́lia maximal independente. O mesmo vale para as
linhas, se não trocamos nenhum par de linhas. Se houve umas trocas, temos que
aplicar a permutação inversa para achar uma sub-famı́lia maximal independente na
matriz de partida A.
Exemplo 3.4.14. Calcular, através do escalonamento, o posto da seguinte ma-
triz:  
1 1 2 1
−1 1 −4 0
A=  0 1 −1 0 .

1 2 1 2
Achar uma sub-famı́lia maximal independente das colunas de A.
Escalonemos a matriz A.
   
1 1 2 1 1 1 2 1
−1 1 −4 0 II → II + I 0 2 −2 0
 0 1 −1 0 , IV → IV − I , 0 1 −1 0 ,
   
1 2 1 2 0 1 −1 1
 
1 1 2 1
III → III − II, 0 1 −1 0 .
0 0 0 1
Obtemos três pivot, portanto rk(A) = 3. Ademais, observamos que, no escalona-
mento, nunca trocamos colunas de A. Portanto, uma sub-famı́lia maximal indepen-
dente das colunas de A é formada pelas colunas I, II e IV. ♦
Observamos que, no exemplo ??, aplicamos a mesma técnica. A prova que mos-
tramos no exemplo ?? é equivalente à que acabamos de mostrar, passando pela
resolução explı́cita do sistema. No exercı́cio 3.4.14 analisamos as sub-matrizes qua-
dradas em vez que aplicar o escalonamento.

3.5. Teorema de Rouché-Capelli


Consideremos um sistema linear de m equações e n variáveis. Podemos escrevê-lo
na forma:
(62) Ax = b,
onde x = (x1 , . . . , xn )T é o vetor das variáveis, b = (b1 , . . . , bm )T é o vetor dos termos
constantes e A = [αij ] ∈ M (m, n) é a matriz dos coeficientes. Seja A = [a1 | · · · | an ].
Então, pela fórmula (58), o sistema (62) equivale a:
(63) x1 a1 + · · · + xn an = b.
Isso significa que o sistema (62) admite solução se, e somente se, b é combinação
linear das colunas de A, sendo as soluções as possı́veis famı́lias de coeficientes que
realizam esta combinação. Consideremos a matriz:
[A | b] := [a1 | · · · | an | b].
114 3. ÁLGEBRA DAS MATRIZES

Seja A = {ai1 , . . . , aik } uma sub-famı́lia maximal independente das colunas de A.


Podemos facilmente mostrar que b é combinação linear das colunas de A se, e so-
mente se, A é também uma famı́lia maximal independente entre as colunas de [A | b],
o que acontece se, e somente se, rk[A | b] = rk(A). Este é o conteúdo do teorema de
Rouché-Capelli.
Teorema 3.5.1 (Teorema de Rouché-Capelli). O sistema linear Ax = b, com m
equações e n variáveis, admite soluções se, e somente se, rk[A | b] = rk(A). Nesse
caso o sistema tem ∞n−rk(A) soluções.
Demonstração. Seja A = {ai1 , . . . , aik } uma sub-famı́lia maximal indepen-
dente das colunas de A. Em particular, rk(A) = k. ⇒. Seja (t1 , . . . , tn ) uma solução
do sistema. Então, pela fórmula (63), b = t1 a1 + · · · + tn an ∈ ha1 , . . . , an i = hAi.
Portanto, A, sendo uma base de ha1 , . . . , an , bi, é uma sub-famı́lia maximal indepen-
dente das colunas de [A | b], logo rk[A | b] = k. ⇐. Sejam rk(A) = rk[A | b] = k.
Se b ∈/ hAi, então, pelo lema 1.5.5 item 6, a famı́lia A ∪ {b} é independente, logo
rk[A | b] = k + 1 6= k, o que é absurdo. Isso prova que b ∈ hAi, logo, pela fórmula
(63), o sistema tem solução.
Enfim, mostremos que, se rk(A) = rk[A | b] = k, há ∞n−k soluções. As linhas
de [A | b] correspondem às equações do sistema, portanto podemos tiras as que são
combinação linear das demais. Por isso, fica uma sub-famı́lia maximal independente
das linhas, ou seja, uma matriz [A0 | b0 ] de posto k e k linhas. A menos da ordem das
0
 
variáveis, pelo teorema de Kronecker podemos supor que A = A0 A0 U , sendo
A0 ∈ M (k, k) e det(A0 ) 6= 0. Dividimos o vetor das variáveis x = (x1 , . . . , xn )T em
dois vetores x0 = (x1 , . . . , xk )T e x00 = (xk+1 , . . . , xn )T . Obtemos o sistema:
A0 x0 + A0 U x00 = b
x0 = −U x00 + A−1
0 b.

Portanto, podemos escolher n − k parâmetros livres tk+1 , . . . , tn e pôr x00 = t00 :=


(tk+1 , . . . , tn )T . Obtemos:
x0 = −U t00 + A−1
0 b.

Logo, o espaço das soluções é um sub-espaço afim de dimensão n − k. 


Corolário 3.5.2. Sejam A ∈ M (n, n) uma matriz quadrada e b ∈ Rn . O
sistema Ax = b admite uma única solução se, e somente se, det(A) 6= 0.
Demonstração. Se o sistema admitir solução, o número de soluções é ∞n−rk(A) ,
portanto há uma solução única se, e somente se, rk(A) = n, se, e somente se,
det(A) 6= 0. Como, nesse caso, rk[A | b] = n, a solução existe. 
Exemplo 3.5.3. Usando o teorema de Rouché-Capelli, estabelecer quantas soluções
tem o seguinte sistema linear, dependendo do parâmetro k ∈ R:

 x + y + kz = 2
x+z = 1
2x + ky + 2z = 3.

3.5. TEOREMA DE ROUCHÉ-CAPELLI 115

Temos que:  
1 1 k 2
[A | b] = 1 0 1 1 .
2 k 2 3
Aplicando a regra de Laplace à seguinda linha, temos:
   
1 k 1 1
det(A) = − det − det = −(2 − k 2 ) − (k − 2) = k(k − 1).
k 2 2 k
Logo, para k 6= 0, 1, temos rk(A) = rk[A | b] = 3, portanto o sistema tem uma
solução.
Seja k = 0. Temos:  
1 1 0 2
[A | b] = 1 0 1 1 .
2 0 2 3
Como a terceira coluna coincide com a primeira menos a segunda, podemos tirá-la.
É fácil verificar que rk(A) = 2, calculando o determinante da sub-matriz quadrada
de ordem 2 acima à esquerda. Portanto, se rk[A | b] = 2, então o sistema tem
∞1 soluções, se rk[A | b] = 3, então o sistema é impossı́vel. Isso só depende do
determinante da matriz formada pelas colunas I, II e IV. Aplicando a regra de
Laplace à coluna II, vemos que o determinante é −1, logo o sistema é impossı́vel.
Enfim, seja k = 1. Temos:
 
1 1 1 2
[A | b] = 1 0 1 1 .
2 1 2 3
Como a terceira coluna é igual à primeira, podemos tirá-la, portanto a situação
é análoga à precedente. De novo, é fácil verificar que rk(A) = 2. Calculemos o
determinante da sub-matriz formada pelas colunas I, II e IV. Aplicando a regra de
Laplace à coluna II, vemos que o determinante é 0, portanto rk[A | b] = 2. Portanto
o sistema tem ∞1 soluções.
Afinal, para k 6= 0, 1 o sistema tem uma solução. Para k = 1 tem ∞1 soluções.
Para k = 0 é impossı́vel. ♦
Sejam A ∈ M (n, n) e b ∈ Rn . Pelo corolário 3.5.2, o sistema Ax = b admite
uma solução única se, e somente se, det(A) 6= 0. Podemos provar diretamente a
unicidade, pois Ax = b se, e somente se, x = A−1 b. Pela fórmula (57), temos que:
n
1 X C
(64) xi = α bj .
det A j=1 ji
Seja Ai a matrix obtida substituindo b à coluna i-ésima de A. Então a entrada (j, i)
C
de Ai é bj e o complemento algébrico de bj é αji , portanto a fórmula (64) coincide
com o determinante de Ai , calculado aplicando a regra de Laplace à coluna i-ésima.
Logo:
det(Ai )
(65) xi = .
det(A)
116 3. ÁLGEBRA DAS MATRIZES

Exemplo 3.5.4. Considerando o sistema do exemplo 3.5.3, para k 6= 0, 1, cal-


cular explicitamente a única solução, usando a fórmula (65).
Temos:
       
1 1 k 2 1 k 1 2 k 1 1 2
A= 1 0 1
  A1 = 1 0 1
  A2 = 1 1 1
  A3 = 1
 0 1 .
2 k 2 3 k 2 2 3 2 2 k 3
Aplicando a regra de Laplace à segunda coluna de A, A1 e A3 e à primeira coluna de
A2 , obtemos det(A) = k(k−1), det(A1 ) = (k−1)2 , det(A2 ) = k−1 e det(A3 ) = k−1.
Logo temos:
k−1 1 1
x= y= z= .
k k k

Observação 3.5.5. A resolução por escalonamento de um sistema linear é um
caso particular de aplicação do teorema de Rouché-Capelli. De fato consideremos
uma matriz escalonada, por exemplo da seguinte forma:
 
1 1 2 1 1
[A | b] = 0 1 −1 0 1
0 0 0 1 3
Como o posto de uma matriz escalonada coincide com o número de pivot, temos
que rk(A) = rk[A | b] = 3, logo o sistema tem ∞1 soluções. Consideremos agora a
seguinte matriz escalonada:
 
1 1 2 1 1
[A | b] = 0 1 −1 0 1
0 0 0 0 3
Trata-se do caso tı́pico de um sistema impossı́vel. Nesse caso, a entrada 3 da última
linha é um pivot de [A | b] que não é um pivot de A, logo rk(A) = 2 e rk[A | b] = 3.

Como o teorema de Rouché-Capelli concerne a resolubilidade e o número de
soluções de um sistema linear, pode ser aplicado para estabelecer se um vetor é
combinação linear de uma famı́lia dada ou se uma famı́lia dada é independente.
Vamos ver como resolver os exemplos 1.2.3 e 1.5.3 dassa maneira.
Exemplo 3.5.6. Dados os seguintes polinômios:
p(x) = x3 + (k + 1)x + 2
p1 (x) = kx3 + 1 p2 (x) = x2 + kx + 3 p3 (x) = x3 + x2 − x + 3
estabelecer para quais valores do parâmetro k ∈ R o polinômio p(x) é combinação
linear dos dos polinômios p1 (x), p2 (x), p3 (x).
Temos que verificar se a quadrupla dos coeficientes de p(x), ou seja, (1, 0, k+1, 2),
é combinação linear das quadruplas dos coeficientes de p1 (x), p2 (x) e p3 (x) até
3.5. TEOREMA DE ROUCHÉ-CAPELLI 117

o terceiro grau, ou seja, (k, 0, 0, 1), (0, 1, k, 3) e (1, 1, −1, 3). Portanto obtemos o
seguinte sistema linear:
 
k 0 1 1
0 1 1 0 
[A | b] = 0 k −1
.
k + 1
1 3 3 2

O determinante da matriz completa, aplicando a regra de Laplace à primeira coluna,


é dado por:
   
1 1 0 0 1 1
k det k −1 k + 1 − det 1 1 0  = 2(1 − k 2 ).
3 3 2 k −1 k + 1

Para k 6= ±1, rk[A | b] = 4, enquanto, necessariamente, rkA ≤ 3, portanto não


existe solução. Para k = 1, tirando a quarta linha e a quarta coluna de [A | b]
obtemos uma sub-matriz de A com determinante −2, portanto rk[A | b] = rkA = 3.
Para k = −1, tirando a terça linha e a quarta coluna de [A | b] obtemos uma sub-
matriz de A com determinante −1, portanto rk[A | b] = rk(A) = 3. Logo, p(x) é
combinação linear de p1 (x), p2 (x) e p3 (x) se, e somente se, k = ±1. ♦

Exemplo 3.5.7. Estabelecer para quais valores do parâmetro k ∈ R as seguintes


matrizes com coeficientes reais são linearmente independentes:
     
1 0 −1 1 −1 k + 1
.
k 2 2 1 5 4

Temos que verificar se o único modo de escrever (0, 0, 0, 0) como combinação linear
de (1, 0, k, 2), (−1, 1, 2, 1) e (−1, k + 1, 5, 4) consiste em escolher coeficientes todos
nulos. Portanto, o seguinte sistema homogêneo deve ter uma solução (a nula):
 
1 −1 −1 0
0 1 k + 1 0
[A | b] = 
k 2
.
5 0
2 1 4 0

Como b = 0, é claro que rk[A | b] = rkA. Como o número de soluções é ∞3−rkA , para
que a solução seja única, rkA tem que ser igual a 3. Isso é também consequência
direta do fato que o posto de A é o número máximo de colunas independentes,
portanto, nesse caso, aplicar o teorema de Rouché-Capelli equivale a usar as propri-
edades fundamentais do posto. Tirando a quarta linha, obtemos uma sub-matriz de
ordem 3 com determinante (k + 3)(k + 1), portanto, para k 6= 1, −3, as colunas são
independentes. Para k = −3, tirando a primeira linha obtemos uma sub-matriz de
ordem 3 com determinante 36, portanto as colunas são independentes. Para k = 1,
a terceira coluna é igual à soma entre a primeira e o duplo da segunda. Logo, as
matrizes dadas são independentes se, e somente se, k 6= 1. ♦
118 3. ÁLGEBRA DAS MATRIZES

3.6. Autovalores, autovetores e auto-espaços


Vamos agora introduzir os conceitos fundamentais de autovalor e autovetor de
um endomorfismo ou de uma matriz; isso nos levará a estudar as formas canônicas
dos endomorfismos. A primeira parte deste capı́tulo vale para espaços vetoriais reais
e complexos da mesma maneira, com as mesmas demonstrações. Por isso, usaremos
o sı́mbolo ‘K’ para denotar R ou C.
Fixemos um espaço vetorial V sobre K.
Definição 3.6.1. Seja f : V → V um endomorfismo. Um número λ ∈ K é dito
autovalor de f se existir um vetor v ∈ V , v 6= 0, tal que f (v) = λv. Nesse caso, v é
dito autovetor de f associado a λ. ♦
Isso significa que f manda um vetor não nulo v em um seu múltiplo, multiplicando-
o por λ. É necessário impor que um autovetor seja não nulo, pois f (0) = λ0 para
todo λ ∈ K.
Exemplo 3.6.2. Seja rθ : R2 → R2 a rotação de ângulo θ. Então, se θ 6= 0, π,
não há autovalores, pois, rotacionando um vetor, a direção muda. Se θ = 0, então
rθ = id, logo qualquer vetor não nulo é um autovetor associado ao único autovalor
1. Se θ = π, então rθ = −id, logo qualquer vetor não nulo é um autovetor associado
ao único autovalor −1. ♦
Exemplo 3.6.3. Para λ ∈ K fixado, seja f : V → V definida por f (v) = λv.
Então qualquer vetor não nulo é um autovetor associado ao único autovalor λ. ♦
Exemplo 3.6.4. Seja f : K3 → K3 definida por f (x, y, z) = (x, y, 0). Então
qualquer vetor não nulo da forma (x, y, 0) é um autovetor associado ao autovalor 1.
Qualquer vetor não nulo da forma (0, 0, z) é um autovetor associado ao autovalor 0.
Verificaremos que não há outros autovalores e autovetores (exemplo 3.6.16). ♦
Exemplo 3.6.5. Seja V o espaço das funções de classe C ∞ de R a R. Seja
D : V → V a função linear D(f ) = f 0 . Então as funções f (x) = µeλx , para λ, µ ∈ R
e µ 6= 0, são autovetores associados ao autovalor λ. Logo, todo número real é um
autovalor de D. ♦
Já explicamos que é necessário excluir 0 da definição de autovetor, para evitar
que todo número real seja um autovalor de qualquer endomorfismo. Todavia, de-
pois de ter calculado os autovalores, se torna natural acrescentar 0 aos conjuntos
correspondentes de autovetores, como mostra a seguinte definição.
Definição 3.6.6. Seja f : V → V um endomorfismo e seja λ ∈ K um autovalor
de f . O auto-espaço associado a λ, que denotamos por Vλ , é o conjunto dos vetores
v ∈ V tais que f (v) = λv. ♦
É claro que Vλ é a união entre o conjunto dos autovetores associados a λ e {0}.
Lema 3.6.7. Seja λ ∈ K um autovalor de f : V → V . O auto-espaço Vλ é um
sub-espaço vetorial de V .
Demonstração. Sejam v 1 , v 2 ∈ Vλ e µ1 , µ2 ∈ K. Então f (µ1 v 1 + µ2 v 2 ) =
µ1 f (v 1 ) + µ2 f (v 2 ) = µ1 λv 1 + µ2 λv 2 = λ(µ1 v 1 + µ2 v 2 ), logo µ1 v 1 + µ2 v 2 ∈ Vλ . 
3.6. AUTOVALORES, AUTOVETORES E AUTO-ESPAÇOS 119

Exemplo 3.6.8. No exemplo 3.6.2, para θ = 0 temos V1 = R2 e para θ = π


temos V−1 = R2 . No exemplo 3.6.3 temos Vλ = V . No exemplo 3.6.4 temos V1 =
h(1, 0, 0), (0, 1, 0)i e V0 = h(0, 0, 1)i. ♦
Observação 3.6.9. 0 é autovalor de f : V → V se, e somente se, f não é
injetora. Nesse caso, V0 = Ker(f ). ♦
Por enquanto definimos os autovalores e os autovetores de um endomorfismo.
Podemos facilmente estender a definição às matrices quadradas.
Definição 3.6.10. Seja A ∈ M (n; K). Um número λ ∈ K é dito autovalor de
A se for um autovalor do endomorfismo ϕA : Kn → Kn , v 7→ Av. Analogamente,
um vetor v ∈ Kn , v 6= 0, é dito autovetor de A associado a λ se for um autovetor
do endomorfismo ϕA associado a λ, ou seja, se Av = λv. Enfim, o auto-espaço
associado a λ é o conjunto dos vetores de v ∈ Kn tais que Av = λv, ou seja, a união
entre os autovetores associados a λ e {0}. ♦
O seguinte lema mostra que os autovalores de um endomorfismo f coincidem
com os de uma qualquer matriz representativa de f e que há uma bijeção natural
entre os conjuntos correspondentes de autovetores.
Lema 3.6.11. Sejam f : V → V um endomorfismo, A uma base de V e A =
µA (f ). Um número λ ∈ K é um autovalor de f se, e somente se, é um autovalor
de A. Ademais, seja v = v1 a1 + · · · + vn an ∈ V \ {0}. O vetor v é um autovetor de
f associado a λ se, e somente se, o vetor (v1 , . . . , vn )T ∈ Kn é um autovetor de A
associado a λ.
Demonstração. Segue trivialmente da fórmula (18), pois f (v) = λv se, e
somente se, A(v 1 , . . . , vn )T = λ(v 1 , . . . , vn )T . 
Corolário 3.6.12. Duas matrizes semelhantes têm os mesmos autovalores.
Ademais, seja B = C −1 AC. Então v ∈ Kn \ {0} é um autovetor de A associado a
λ se, e somente se, C −1 v é um autovetor de B associado a λ.
Demonstração. Duas matrizes semelhantes podem representar o mesmo en-
domorfismo f , logo os autovalores delas coincidem com os de f pelo lema 3.6.11. A
respeito da segunda parte do enunciado, podemos prová-la com a conta direta:
B(C −1 v) = λ(C −1 v) ⇔ (C −1 AC)(C −1 v) = λ(C −1 v)
⇔ C −1 (Av) = C −1 (λv) ⇔ Av = λv.
De um ponto de vista mais teórico, sejam A = {a1 , . . . , an } e A0 = {a01 , . . . , a0n }
duas bases de V tais que A = µA (f ) e B = µA0 (f ). Então C = µ(A, A0 ). Seja
v = v1 a1 + · · · + vn an = v10 a01 + · · · + vn0 a0n ∈ Vλ , sendo Vλ relativo o a f . Pela
fórmula (10), temos que (v10 , . . . , vn0 )T = C −1 (v1 , . . . , vn ), portanto o resultado segue
imediatamente do lema 3.6.11. 
Agora vamos mostrar como calcular concretamente os autovalores e os autove-
tores de uma matriz quadrada A ∈ M (n; K). Pelo lema 3.6.11, isso nos permitirá
calcular os autovalores e os autovetores de qualquer endomorfismo em um espaço
120 3. ÁLGEBRA DAS MATRIZES

vetorial finitamente gerado. Sabemos que um número λ ∈ K é um autovalor de A


se, e somente se, existe v ∈ Kn \ {0} tal que Av = λv. Temos que:
Av = λv ⇔ Av = λ(In v) ⇔ (A − λIn )v = 0.
Logo, λ é um autovalor de A se, e somente se, o sistema linear homogêneo (A −
λIn )v = 0 admite soluções não nulas, o que, pelo corolário 3.5.2, equivale a:
(66) det(A − λIn ) = 0.
Portanto, os autovalores de A são as soluções da equação (66). Se λ for uma solução,
podemos encontrar o auto-espaço Vλ resolvendo (A − λIn )v = 0. Com isso consegui-
mos calcular os autovalores e os autovetores de uma matriz. Dado um endomorfismo
f : V → V , escolhemos uma base A de V e consideramos a matriz representativa
A = µA (f ). Resolvendo (66) achamos os autovalores de f . Ademais, para achar
o auto-espaço Vλ , resolvemos (A − λIn )v = 0 e consideramos os vetores que são
combinação linear dos de A com coeficientes dados pelas entradas de v, conforme o
lema 3.6.11.
Exemplo 3.6.13. Consideremos o exemplo 3.6.2. Seja rθ : R2 → R2 a rotação
de ângulo θ. A matriz representativa a respeito da base canônica é:
 
cos θ − sin θ
(67) Aθ = .
sin θ cos θ
Logo, temos:
 
cos θ − λ − sin θ
Aθ − λIn = .
sin θ cos θ − λ
Portanto a equação (66) se torna:
(68) λ2 − 2λ cos θ + 1 = 0.
Para θ 6= 0, π temos que ∆4 = cos2 θ − 1 < 0, logo não existe solução real. Para
θ = 0 a equação se torna (λ − 1)2 = 0, portanto λ = 1 é a única solução. Nesse
caso A − I2 = 0, então o auto-espaço de 1 é dado pela equação 0v = 0, ou seja, todo
vetor não nulo de R2 é um autovetor associado a 1. Enfim, para θ = π a equação
se torna (λ + 1)2 = 0, portanto λ = −1 é a única solução. Nesse caso A + I2 = 0,
então o auto-espaço de −1 é dado pela equação 0v = 0, ou seja, todo vetor não nulo
de R2 é um autovetor associado a −1. ♦
Exemplo 3.6.14. Consideremos a complexificação da rotação de ângulo θ em
R2 , isto é, o endomorfismo de C2 representado pela matriz (67) em relação à base
canônica. Para achar os autovalores temos que resolver a equação (68), mas consi-
derando as raı́zes complexas. Obtemos:

λ = cos θ ± cos2 θ − 1 = cos θ ± i sin θ = e±iθ .
Logo os autovalores são eiθ e e−iθ . Se θ = 0, os dois coincidem com 1; se θ = π, os
dois coincidem com −1; nos demais casos são distintos. Para θ = 0 todo vetor não
nulo de C2 é um autovetor associado a 1; para θ = π todo vetor não nulo de C2 é
3.6. AUTOVALORES, AUTOVETORES E AUTO-ESPAÇOS 121

um autovetor associado a −1; nos demais casos temos que resolver os dois seguintes
sistemas lineares:
(Aθ − eiθ I2 )v = 0 (Aθ − e−iθ I2 )v = 0.
Obtemos respetivamente:
         
−i sin θ − sin θ x 0 i sin θ − sin θ x 0
= = .
sin θ −i sin θ y 0 sin θ i sin θ y 0
No primeiro obtemos a equação y = −ix e no segundo a equação y = ix, logo
Veiθ = h(1, −i)i e Ve−iθ = h(1, i)i. ♦
Exemplo 3.6.15. Consideremos o exemplo 3.6.3. Seja f (v) = µv. A matriz
representativa é A = µIn , logo a equação (66) se torna (µ − λ)n = 0, cuja única
solução é λ = µ. De novo A − µIn = 0, logo todo vetor não nulo de Kn é um
autovetor associado a λ. ♦
Exemplo 3.6.16. Consideremos o exemplo 3.6.4. A matriz representativa a
respeito da base canônica é:  
1 0 0
A = 0 1 0 .
0 0 0
Logo, temos:  
1−λ 0 0
A − λIn =  0 1 − λ 0 .
0 0 −λ
Portanto a equação (66) se torna:
(1 − λ)2 λ = 0.
As soluções são λ = 1 e λ = 0. Para calcular V1 , temos que resolver (A − I3 )v = 0,
ou seja:   
0 0 0 x
0 0 0  y  = 0.
0 0 −1 z
A única equação não trivial é z = 0, logo V1 = h(1, 0, 0), (0, 1, 0)i. Enfim, para
calcular V0 = Ker f , temos que resolver Av = 0, obtendo x = y = 0. Logo V0 =
h(0, 0, 1)i. ♦
Dada uma matriz A ∈ M (n; K), consideremos a função χA : K → K definida
por:
χA (λ) := det(A − λIn ).
Vamos mostrar que se trata de um polinômio de grau n. Se A = [aij ], temos que:
X
χA (λ) = (−1)σ (aσ(1)1 − λδσ(1)1 ) · · · (aσ(n)n − λδσ(n)n ).
σ∈Sn

Cada termo (aσ(1)1 − λδσ(1)1 ) · · · (aσ(n)n − λδσ(n)n ) da soma, se não for nulo, é um
produto de n polinômios de grau 1 ou 0 em λ, logo é um polinômio de grau menor
122 3. ÁLGEBRA DAS MATRIZES

ou igual a n. Por isso, χA todo é um polinômio de grau menor ou igual a n.


Ademais, o único termo da soma em que λ compare n vezes é o termo no qual
σ(1) = 1, . . . , σ(n) = n, ou seja, o que corresponde à permutação idêntica. O
coeficiente de λn é (−1)n , que é sempre diferente de 0, portanto χA é um polinômio
de grau n. De fato, nos exemplos 3.6.13 e 3.6.14 obtivemos um polinômio de grau
2, no exemplo 3.6.15 um polinômio de grau n e no exemplo 3.6.16 um polinômio de
grau 3.
Definição 3.6.17. Dada uma matriz A ∈ M (n; K), o polinômio χA (λ) :=
det(A − λIn ) é dito polinômio caracterı́stico de A. ♦
Conforme essa definição, os autovalores de A são as raı́zes do polinômio carac-
terı́stico. Como o grau é n, o número de autovalores de uma matriz de ordem n é
menor ou igual a n. Por isso, dado um endomorfismo f : V → V , sendo dim V = n,
o número de autovalores de f é menor ou igual a n; em particular, é finito. Isso não
vale se V não for finitamente gerado: por exemplo, a função do exemplo 3.6.5 tem
infinitos autovalores (todos os números reais).
Observação 3.6.18. Dado um endomorfismo f : V → V , qualquer matriz re-
presentativa de f tem os mesmos autovalores de f , independentemente da base
escolhida. Logo, duas matriz semelhantes têm os mesmos autovalores, como já vi-
mos no corolário 3.6.12. Na verdade, vale mais que isso: duas matrizes semelhantes
têm o mesmo polinômio caracterı́stico. De fato, seja B = C −1 AC. Temos:
χB (λ) = det(B − λIn ) = det(C −1 AC − λC −1 In C)
= det(C −1 ) det(A − λIn ) det(C) = det(A − λIn ) = χA (λ),
logo χB = χA . ♦
Por causa da observação precedente podemos dar a seguinte definição.
Definição 3.6.19. O polinômio caracterı́stico de um endomorfismo f : V → V
é o polinômio caracterı́stico de uma matriz representativa de f . O denotamos por
χf (λ). ♦
Lema 3.6.20. Seja f : V → V um endomorfismo e seja dim V = n. Sejam
λ1 , . . . , λk autovalores de f e v 1 , . . . , v k autovetores tais que f (v i ) = λi v i . Se
λ1 , . . . , λk forem distintos, então {v 1 , . . . , v k } é independente.
Demonstração. Vamos demonstrar o resultado por indução. Se k = 1, é
claro que {v 1 } é independente, pois, por definição, um autovetor não pode ser nulo.
Suponhamos que o resultado valha para k − 1. Seja:
(69) µ1 v 1 + · · · + µk v k = 0.
Aplicando f a (226), obtemos µ1 λ1 v 1 + · · · + µk λk v k = 0. Multiplicando (226) por
λk , obtemos µ1 λk v 1 + · · · + µk λk v k = 0. Calulando a diferença obtemos µ1 (λk −
λ1 )v 1 + · · · + µk−1 (λk − λk−1 )v k−1 = 0. Pela hipótese de indução os coeficientes são
nulos; como os autovalores são distintos, temos µ1 = · · · = µk−1 = 0. Por isso, (226)
se torna µk v k = 0, logo µk = 0 também. 
3.6. AUTOVALORES, AUTOVETORES E AUTO-ESPAÇOS 123

Seja λ̃ um autovalor de f : V → V , sendo dim V = n. Usamos a notação ‘λ̃’


pois pensamos em λ como na variável do polinômio χf (λ), enquanto λ̃ é um número
fixado. Como λ̃ é um autovalor, temos χf (λ̃) = 0, ou seja, λ̃ é uma raiz do polinômio
χf (λ). Por isso existe k ∈ N, 1 ≤ k ≤ n, tal que (λ − λ̃)k é um divisor de χf (λ),
enquanto (λ − λ̃)k+1 não é um divisor de χf (λ). Esse número k, por definição, é a
multiplicidade de λ̃ como raiz de χf (λ).
Definição 3.6.21. Seja λ̃ um autovalor de f : V → V . A multiplicidade algébrica
de λ̃ é a multiplicidade dele como raiz de χf (λ). A denotamos por ma(λ̃). ♦
Já observamos que 1 ≤ ma(λ̃) ≤ n. Consideremos agora o auto-espaço Vλ̃ .
Definição 3.6.22. Seja λ̃ um autovalor de f : V → V . A multiplicidade geométrica
de λ̃ é a dimensão do auto-espaço Vλ̃ . A denotamos por mg(λ̃). ♦
Como λ̃ é um autovalor, Vλ̃ contém pelo menos um elemento não nulo, portanto
mg(λ̃) ≥ 1. Ademais, como Vλ̃ ⊂ V e dim V = n, temos que mg(λ̃) ≤ n. Logo,
1 ≤ mg(λ̃) ≤ n.
Lema 3.6.23. Seja λ̃ um autovalor de f : V → V , sendo dim V = n. Então:
1 ≤ mg(λ̃) ≤ ma(λ̃) ≤ n.
Demonstração. Só devemos provar que mg(λ̃) ≤ ma(λ̃). Seja k = mg(λ̃)
e seja A0 = {v 1 , . . . , v k } uma base de Vλ̃ . Completemos A0 a uma base A =
{v 1 , . . . , v k , v k+1 , . . . , v n } de V . A matriz representativa de f a respeito de A tem a
seguinte forma:  
λ̃Ik A0
A= .
0 A1
Logo:  
(λ̃ − λ)Ik A0
A − λIn = .
0 A1 − λIn−k
Aplicando a regra de Laplace às primeiras k colunas de A − λIn , temos:
χf (λ) = (λ̃ − λ)k χA1 (λ).
Isso mostra que a multiplicidade de λ̃, como raiz de χf (λ), é maior ou igual a k, ou
seja, ma(λ̃) ≥ mg(λ̃). 
Corolário 3.6.24. Se ma(λ̃) = 1, então mg(λ̃) = 1.
Exemplo 3.6.25. Nos exemplos 3.6.13 e 3.6.14, se θ = 0, o único autovalor 1
tem multiplicidade algébrica e geométrica iguais a 2. O mesmo vale para θ = π. No
exemplo 3.6.14, para θ 6= 0, π, os dois autovalores distintos e±iθ têm multiplicidade
algébrica e geométrica iguais a 1. No exemplo 3.6.15, o único autovalor µ tem
multiplicidade algébrica e geométrica iguais a n. No exemplo 3.6.16, o autovalor 1
tem multiplicidade algébrica e geométrica iguais a 2, o autovalor 0 tem multiplicidade
algébrica e geométrica iguais a 1. ♦
124 3. ÁLGEBRA DAS MATRIZES

Exemplo 3.6.26. Seja f : K2 → K2 definido por (x, y) 7→ (x + y, y). A matriz


representativa a respeito da base canônica é:
 
1 1
A= .
0 1
Como χf (λ) = (1 − λ)2 , o único autovalor é 1 com multiplicidade algébrica 2. O
auto-espaço V1 é definido por (A − I2 )v = 0, ou seja, y = 0 (sendo v = (x, y)T ).
Por isso V1 = h(1, 0)i, logo a multiplicidade geométrica é igual a 1. Nesse caso
mg(1) < ma(1). ♦
Enfim, vamos analisar em detalhe os coeficientes do polinômio caracterı́stico de
uma matriz. Por definição
X
(70) χA (λ) = (−1)σ (aσ(1)1 − λδσ(1)1 ) · · · (aσ(n)n − λδσ(n)n ).
σ∈Sn

Já observamos que χA (λ) é um polinômio de grau n, cujo coeficiente de grau máximo
é (−1)n . Logo:
χA (λ) = (−1)n λn + (−1)n−1 αn−1 λn−1 + · · · − α1 λ + α0 .
Para calcular α0 , para cada permutação σ na soma (70) temos que considerar o
produto aσ(1)1 · · · aσ(n)n , ignorando os termos que contêm λ. Afinal obtemos:
X
α0 = (−1)σ aσ(1)1 · · · aσ(n)n = det(A).
σ∈Sn

Por isso o termo constante do polinômio caracterı́stico é o determinante. Este re-


sultado podia ser deduzido facilmente a partir da definição. De fato, α0 = χA (0),
logo, sendo χA (λ) = det(A − λIn ), temos que α0 = det(A − 0In ) = det(A).
Outro termo significativo é αn−1 . De fato, neste caso, para cada permutação
σ na soma (70) temos que considerar os termos que grau n − 1 em λ, logo temos
que escolher n − 1 vezes λδσ(i)i , de modo que o produto não se anule, e uma vez
aσ(i)i . Só há uma permutação para a qual isso é possı́vel: a permutação idêntica.
De fato, precisamos que n − 1 termos tenham coeficiente δσ(i)i não nulo, ou seja,
tem que existir j ∈ {1, . . . , n} tal que σ(i) = i para todo i 6= j. Contudo, se uma
permutação fixar n − 1 termos, tem que fixar também j, portanto σ = 1. Logo,
só devemos considerar o adendo (a11 − λ) · · · (ann − λ), cujo termo de grau n − 1 é
(−1)n−1 (a11 + · · · + ann )λn−1 . Afinal αn−1 = a11 + · · · + ann , ou seja, αn−1 é a soma
dos termos diagonais de A.
Definição 3.6.27. Seja A ∈ M (n; K). O traço de A, que denotamos por Tr(A),
é a soma dos elementos diagonais de A, ou seja:
Tr(A) = a11 + · · · + ann .

Por isso αn−1 = Tr(A). O traço de uma matriz é muito significativo em vários
contextos.
Lema 3.6.28. Seja Tr : M (n; K) → K a função traço. Temos que:
3.6. AUTOVALORES, AUTOVETORES E AUTO-ESPAÇOS 125

• Tr é linear;
• Tr(AB) = Tr(BA).
Demonstração. Sejam A = [aij ], B = [bij ] e λ, µ ∈ K. Então
X n
Tr(λA + µB) = Tr[λaij + µbij ] = (λaii + µbii )
i=1
n
X n
X
=λ aii + µ bii = λTr(A) + µTr(B).
i=1 i=1

Em
Pn relação ao segundo
Pn item, sejam AB = [cij ] e BA = [dij ]. Por definição cij =
k=1 aik bkj e dij = k=1 bik akj . Temos:
n
X n X
X n n X
X n n
X
Tr(AB) = cii = aik bki = bki aik = dkk = Tr(BA).
i=1 i=1 k=1 k=1 i=1 k=1

Para calcular todos os coeficientes αi , vamos precisar da seguinte notação.
Notação 3.6.29. Seja A ∈ M (n; K) e seja 1 ≤ i1 < · · · < ik ≤ n. Denotamos
por A(i1 ···ik ) a submatriz de A de ordem n − k obtida tirando as linhas e as colunas
de ı́ndice i1 , . . . , ik . ♦
Por exemplo:
   
1 1 0 −1 1 1 0 −1
2 −1 0 0 2 −1 0 0
A=
1 −1 3
 A(13) =
1 −1 3
.
3 3
1 −3 −3 4 1 −3 −3 4
As sub-matrizes desta forma são as cujas entradas ocupam posições simétricas em
relação à diagonal.
Lema 3.6.30. Seja A ∈ M (n; K) e seja χA (λ) = (−1)n λn + (−1)n−1 αn−1 λn−1 +
· · · − α1 λ + α0 . Para k ≥ 1 temos que:
X
(71) αk = det A(i1 ···ik ) .
1≤i1 <···<ik ≤n

Demonstração. Para cada permutação σ na soma (70) temos que considerar


os termos que grau k em λ, logo temos que escolher k vezes λδσ(i)i , de modo que
o produto não se anule, e n − k vez aσ(i)i . Para escolher os primeiros k termos,
podemos fixar uma sequência 1 ≤ i1 < · · · < ik ≤ n e escolher os termos λδσ(ij )ij .
Isso tem que ser repetido para toda sequência dessa forma. Para que o produto
não se anule, σ(ij ) = ij , logo, fixada uma sequência, só temos que considerar as
permutações que fixam i1 , . . . , ik , portanto fica a soma sobre as permutações dos
demais n − k elementos. Obtemos:
X X Y
αk = (−1)σ aσ(i)i .
1≤i1 <···<ik ≤n σ∈Sn−k i6=i1 ,...,ik
126 3. ÁLGEBRA DAS MATRIZES

O termo σ∈Sn−k (−1)σ i6=i1 ,...,ik aσ(i)i é precisamente o determinante da matriz que
P Q

se obtém considerando as linhas e as colunas de A com ı́ndice diferente de i1 , . . . , ik ,


ou seja, det A(i1 ···ik ) . 
Observamos que, para k = n − 1, as submatrizes da forma A(i1 ···in−1 ) são as
entradas da diagonal, pois, tirando n−1 linhas e n−1 colunas, só sobra um elemento.
Por isso, a fórmula (71) equivale à αn−1 = TrA. O caso k = 0 foi excluı́do no
enunciado do lema. Nesse caso se trataria de considerar todas as sub-matrizes
obtidas tirando 0 linhas e 0 colunas, portanto só obtemos A. Nesse sentido, a
fórmula (71), com k = 0, equivale à α0 = det A.
CAPı́TULO 4

Produto interno e orientação

No quarto capı́tulo do vol. I introduzimos as noções de norma euclidiana e pro-


duto interno canônico em Rn , graças às quais conseguimos calcular a distância entre
dois pontos e o cosseno do ângulo entre dois vetores. A partir disso pudemos definir
a noção de ortogonalidade e portanto as de complemento ortogonal, de base ortonor-
mal e de projeção ortogonal de um vetor em um subespaço vetorial. Enfim, fixado
o cosseno do ângulo θ entre dois vetores, para distinguir entre θ e −θ foi necessário
introduzir o conceito de orientação.
Agora vamos definir cada uma destas noções em um espaço vetorial real genérico,
demonstrando em detalhe todas as afirmações ao respeito; discutiremos também as
relações entre o produto interno e as funções lineares, que constituem um assunto
novo e fundamental. Neste capı́tulo será importante distinguir entre vetores linha e
vetores coluna, pois frequentemente serão pensados como matrizes a serem multipli-
cadas por outras. Por isso, pensaremos em Rn como no conjunto dos vetores coluna e,
quando for mais prático considerar um vetor linha, escreveremos (v1 , . . . , vn )T ∈ Rn .

4.1. Norma e distância


Definição 4.1.1. Seja v = (v1 , . . . , vn )T ∈ Rn . A norma euclidiana de v é
definida por:
q
(72) kvk := v12 + · · · + vn2 . ♦

Denotamos por R≥0 o conjunto que contém os números reais positivos e 0. Fica
definida a função norma euclidiana k · k : Rn → R≥0 , que agora vamos estudar.
Lema 4.1.2. A norma euclidiana k · k : Rn → R≥0 satisfaz as seguintes proprie-
dades fundamentais, para todos v, w ∈ Rn e λ ∈ R:
(N1) kvk = 0 se, e somente se, v = 0;
(N2) kλvk = |λ| · kvk;
(N3) kv + wk ≤ kvk + kwk (desigualdade triangular).
Demonstração. (N1) É claro que kvk = 0 se, e somente se, v12 + · · · + vn2 = 0.
se, v1 = · · · = vn = 0, ou p
Isso ocorre se, e somentep seja, v = 0. (N2) Pela fórmula
(72) temos que kλvk = (λv1 )2 + · · · + (λvn )2 = λ2 (v12 + · · · + vn2 ) = |λ| · kvk.
(N3) Mostraremos a prova em seguida (fórmula (82)). 
As propriedades (N1)–(N3) não caracterizam a norma euclidiana, ou seja, há
infinitas outras funções de Rn a R≥0 , diferentes da (72), que as satisfazem. Veremos
alguns exemplos neste capı́tulo e, mais aprofundadamente, no capı́tulo 8. Ademais,
127
128 4. PRODUTO INTERNO E ORIENTAÇÃO

estas três propriedades podem ser enunciadas em relação a vetores de qualquer


espaço vetorial real, portanto podemos dar a seguinte definição.
Definição 4.1.3. Seja V um espaço vetorial real. Uma norma em V é uma
função
k · k : V → R≥0
que satisfaz as propriedades (N1)–(N3) enunciadas no lema 4.1.2.1 Um espaço veto-
rial real normado é um par (V, k · k), formado por um espaço vetorial real V e uma
norma k · k em V . ♦
Observação 4.1.4. Frequentemente diremos que “V é um espaço vetorial real
normado”, subentendendo que se trata de um par (V, k · k). ♦
Exemplo 4.1.5. O espaço Rn com a norma euclidiana, definida por (72), é um espaço
vetorial real normado, por causa do lema 4.1.2. ♦
Exemplo 4.1.6. No espaço R[x], formado pelos polinômios reais em uma variável, a
seguinte função é uma norma:
q
n
kan x + · · · + a0 k := a2n + · · · + a20 .
A demonstração das propriedades (N1)–(N3) é análoga à relativa à norma euclidiana de
Rn , mesmo se R[x] não é finitamente gerado. ♦
Exemplo 4.1.7. No espaço M (n, m; R), formado pelas matrizes reais de n linhas e m
colunas, a seguinte função é uma norma:
v
u n X
m
uX

[aij ] := t a2 . ij
i=1 j=1

Também neste caso a demonstração das propriedades (N1)–(N3) é análoga à relativa à


norma euclidiana de Rnm . ♦
Exemplo 4.1.8. As seguintes funções são normas em R3 :
q
kvk := 5v12 + 3v22 + 8v32
q
kvk := v12 + v22 + 10v32
q
kvk := 3v12 + 3v22 + 2v32 ,
sendo v = (v1 , v2 , v3 )T . A demonstração das propriedades (N1) e (N2) é análoga à do lema
4.1.2; também a propriedade (N3) será demonstrada de modo análogo, quando daremos
a definição geral de produto interno (v. exemplo 4.2.14). ♦
Exemplo 4.1.9. As seguintes funções são normas em Rn :
q
kvk4 := 4 v14 + · · · + vn4
kvk1 := |v1 | + · · · + |vn |
kvk∞ := max{|v1 |, . . . , |vn |},
1No
lema 4.1.2 enunciamos as propriedades para todos v, w ∈ Rn . No caso geral, obviamente,
valem para todos v, w ∈ V .
4.1. NORMA E DISTÂNCIA 129

sendo v = (v1 , . . . , vn )T . As primeiras duas são um caso particular da seguinte famı́lia de


normas, sendo k ≥ 1 (não é necessário que k seja inteiro):
1
(73) kvkk := |v1 |k + · · · + |vn |k k .
A demonstração das propriedades (N1) e (N2) é análoga à do lema 4.1.2; a demonstração
da propriedade (N3) será mostrada no capı́tulo 8. ♦
Os exemplos precedentes mostram claramente que a norma euclidiana é somente
um caso particular de norma, ainda que se trate do caso mais simples a ser visuali-
zado. Por isso, o leitor poderá sempre pensar na norma euclidiana de Rn como no
exemplo padrão.
No resto desta seção denotaremos por (V, k · k) um espaço vetorial real normado,
sem repeti-lo cada vez.
Lema 4.1.10. Para todos v, w ∈ V vale a seguinte desigualdade:

(74) kv − wk ≥ kvk − kwk .
Demonstração. Temos que kvk = kw + (v − w)k ≤ kwk + kv − wk, portanto
kv−wk ≥ kvk−kwk. Trocando os papeis de v e w obtemos que kw−vk ≥ kwk−kvk,
portanto, sendo kv − wk = kw − vk, obtemos a tese. 
Graças à norma podemos definir a distância entre dois vetores, a qual, visuali-
zando os vetores como “setas” que partem da origem, tem que ser imaginada como
a distância entre os dois pontos de chegada (não a distância entre as duas setas, a
qual seria sempre 0, pois se interceptam na origem).
Definição 4.1.11. Sejam v, w ∈ V . A distância induzida pela norma entre v e
w é o seguinte número real:
d(v, w) := kv − wk.
Se V = Rn e a norma for a euclidiana, a distância correspondente é dita distância
euclidiana. ♦
Fica definida a função distância d : V × V → R≥0 .
Lema 4.1.12. A distância d : V × V → R≥0 , induzida por uma norma em V ,
satisfaz as seguintes propriedades fundamentais para todos v, w, u ∈ V :
(D1) d(v, w) = 0 se, e somente se, v = w;
(D2) d(v, w) = d(w, v);
(D3) d(v, w) ≤ d(v, u) + d(u, w).
Demonstração. (D1) Pela primeira propriedade da norma temos que d(v, w) =
0 se, e somente se, v−w = 0, o que equivale a v = w. (D2) Pela segunda propriedade
da norma temos que d(w, v) = kw − vk = k−(v − w)k = |−1| · kv − wk = d(v, w).
(D3) Pela terceira propriedade da norma temos que d(v, w) = k(v − u) + (u − w)k ≤
kv − uk + ku − wk = d(v, u) + d(u, w). 
Pela fórmula (74), temos também que:
d(v, w) ≥ |d(v, u) − d(u, w)|.
130 4. PRODUTO INTERNO E ORIENTAÇÃO


De fato, d(v, w) = k(v − u) + (u − w)k ≥ kv − uk − ku − wk = |d(v, u) − d(u, w)|.
Isso pode também ser provado a partir da desigualdade triangular da distância, pois
d(v, u) ≤ d(v, w) + d(w, u), portanto d(v, w) ≥ d(v, u) − d(u, w). Analogamente
d(w, v) ≥ d(w, u) − d(u, v), portanto obtemos a tese.
Como fizemos para a norma, podemos generalizar a noção de distância pedindo
que valham as propriedades (D1)–(D3) do lema 4.1.12. Observamos que as três
propriedades são formuladas sem usar a soma e o produto externo, portanto não é
necessário que o conjunto subjacente seja um espaço vetorial.
Definição 4.1.13. Seja X um conjunto. Uma função d : X × X → R≥0 é dita
distância se satisfaz as propriedades (D1)–(D3) do lema 4.1.12. Um par (X, d),
sendo X um conjunto e d uma distância em X, é dito espaço métrico. ♦
Qualquer espaço vetorial real normado (V, k · k) se torna um espaço métrico
(V, d), graças à distância induzida pela norma. Agora podemos formular duas per-
guntas naturais:
(1) Toda distância em um espaço vetorial real é induzida por uma norma?
(2) Se uma distância for induzida por uma norma, esta é única? Equivalen-
temente, duas normas distintas no mesmo espaço vetorial real V induzem
duas distâncias distintas?
Vamos mostrar que a primeira resposta é negativa e a segunda positiva. Comecemos
pela segunda. A distância induzida d, por definição, foi construı́da a partir da norma,
mas pode-se também reconstruir a norma a partir dessa distância. De fato, conforme
a definição 4.1.11, temos que kvk = d(v, 0), portanto a função k · k é completamente
determinada pela função d. Isso implica que duas normas distintas induzem duas
distâncias distintas, como querı́amos demonstrar. Em particular, fica claro que a
distância euclidiana é somente um caso particular de distância em Rn . Em relação à
primeira pergunta, para V 6= {0} a resposta é negativa. De fato, se uma distância d
for induzida por uma norma, acabamos de ver que, necessariamente, kvk = d(v, 0).
Por isso, dada d, definimos kvk := d(v, 0) e verificamos se se trata de uma norma. O
leitor poderá verificar, resolvendo os exercı́cios da seção 4.1.1 (v. ex. 4.3 e 4.4), que
em geral isso não vale. Aliás, há infinitas distâncias em V que não são induzidas
por uma norma. Se trata de um assunto muito interessante do ponto de vista da
topologia geral, mas, como não envolve a estrutura de espaço vetorial, não faz sentido
aprofundá-lo em um curso de álgebra linear.
4.1.1. Exercı́cios.
4.1. Seja R[x] o espaço dos polinômios em uma variável real com a norma do exemplo
4.1.6. Calcule a distância entre p(x) = x4 + x3 − 4x + 3 e q(x) = x4 + x3 − x − 1.
4.2. Seja R4 dotado da norma (145) para k = 3. Calcule a distância entre v = (1, 0, 1, 1)
e w = (2, −1, 0, 2).
4.3. Seja (V, k · k) um espaço vetorial real normado. Seja d0 : V × V → R≥0 definida
da seguinte maneira:
• se {v, w} for independente, então d0 (v, w) := kvk + kwk;
• d0 (λv, µv) := |λ − µ| · kvk.
4.2. PRODUTO INTERNO 131

(1) Demonstre que d0 é uma distância em V .


(2) Demonstre que, se dim V ≥ 2, d0 não é induzida por nenhuma norma.
4.4. Sejam X um conjunto e d : X × X → R≥0 definida por:

1 x 6= y
d(x, y) :=
0 x = y.
(1) Demonstre que d é uma distância.
(2) Se X for um espaço vetorial real diferente de {0}, demonstre que d não é induzida
por nenhuma norma.
4.5. Sejam (V, k · k) um espaço vetorial real normado e v, w ∈ V .
(1) Demonstre que, se w = λv, sendo λ ≥ 0, então kv + wk = kvk + kwk.
(2) Mostre com um exemplo que em geral não vale a volta. (Sugestão: considere o
espaço V = Rn , sendo n ≥ 2, com a norma k(v1 , . . . , vn )k∞ := max{|v1 |, . . . , |vn |}).

4.2. Produto interno


Graças à noção de norma conseguimos medir as distâncias, porém não os ângulos.
Em particular, não podemos estabelecer quando dois vetores são ortogonais. Para
isso, vamos introduzir a noção de produto interno ou produto escalar.
Definição 4.2.1. Sejam v = (v1 , . . . , vn )T , w = (w1 , . . . , wn )T ∈ Rn . O produto
escalar canônico ou produto interno canônico entre v e w é definido por:
(75) hv, wi := v1 w1 + · · · + vn wn .
Se denota também por v • w. ♦
Observação 4.2.2. É importante não confundir o produto escalar hv, wi com
o subespaço gerado por v e w, que se denota da mesma maneira. Normalmente é
claro pelo contexto o que queremos dizer; quando não o for, podemos usar a notação
v • w para o produto escalar. ♦
Observação 4.2.3. Temos que:
(76) hv, wi = v T w,
onde, do lado direito, aplicamos o produto de matrizes. ♦
Lema 4.2.4. O produto interno canônico h · , · i : Rn × Rn → R satisfaz as se-
guintes propriedades fundamentais:
(P1) é uma função bilinear, ou seja, conforme a definição 2.7.1:
hλ1 v 1 + λ2 v 2 , wi = λ1 hv 1 , wi + λ2 hv 2 , wi
hv, λ1 w1 + λ2 w2 i = λ1 hv, w1 i + λ2 hv, w2 i
para todos v 1 , v 2 , w, v, w1 , w2 ∈ Rn e λ1 , λ2 ∈ R;
(P2) é uma função simétrica, ou seja, hv, wi = hw, vi para todos v, w ∈ Rn ;
(P3) é definido positivo, ou seja, hv, vi ≥ 0 para todo v ∈ Rn e hv, vi = 0 se, e
somente se, v = 0.
132 4. PRODUTO INTERNO E ORIENTAÇÃO

Demonstração. (P1) Fixando w̃ = (α1 , . . . , αn )T , obtemos a função linear


v 7→ α1 v1 + · · · + αn vn , representada a respeito da base canônica pela matriz A =
[α1 · · · αn ] ∈ M (1, n). Analogamente, fixando ṽ = (β1 , . . . , βn )T , obtemos a função
linear w 7→ β1 w1 + · · · + βn wn , representada a respeito da base canônica pela matriz
B = [β1 · · · βn ] ∈ M (1, n). (P2) Óbvio pela definição (75). (P3) Temos que:
(77) hv, vi = v12 + · · · + vn2 ,
logo hv, vi ≥ 0, valendo a igualdade se, e somente se, v1 = · · · = vn = 0. 
Como no caso da norma, as propriedades (P1)–(P3) não caracterizam o produto
interno canônico, ou seja, há infinitas outras funções de Rn × Rn a R, diferentes da
(75), que as satisfazem. Veremos alguns exemplos neste capı́tulo e, mais aprofunda-
damente, no capı́tulo 8. Ademais, estas três propriedades podem ser enunciadas em
relação a vetores de qualquer espaço vetorial real, portanto podemos dar a seguinte
definição.
Definição 4.2.5. Seja V um espaço vetorial real. Um produto interno ou pro-
duto escalar em V é uma função
h · , · i: V × V → R
que satisfaz as propriedades (P1)–(P3) enunciadas no lema 4.2.4. Um espaço vetorial
euclidiano é um par (V, h · , · i), formado por um espaço vetorial real V e um produto
interno h · , · i em V . ♦
Observação 4.2.6. Frequentemente diremos que “V é um espaço vetorial eu-
clidiano”, subentendendo que se trata de um par (V, h · , · i). ♦
Exemplo 4.2.7. O espaço Rn com o produto interno canônico, definido por (75), é
um espaço vetorial euclidiano, por causa do lema 4.2.4. ♦
Exemplo 4.2.8. No espaço R[x], formado pelos polinômios reais em uma varı́avel, a
segunte função é um produto interno:
han xn + · · · + a0 , bm xm + · · · + b0 i := amin{n,m} bmin{n,m} + · · · + a0 b0 .
A demonstração das propriedades (P1)–(P3) é análoga à relativa ao produto interno
canônico de Rn , mesmo se R[x] não é finitamente gerado. ♦
Exemplo 4.2.9. No espaço M (n, m; R), formado pelas matrizes reais de n linhas e m
colunas, a seguinte função é um produto interno:
n X
X m
h [aij ], [bij ] i := aij bij .
i=1 j=1

Também neste caso a demonstração das propriedades (P1)–(P3) é análoga à relativa ao


produto interno canônico de Rnm . ♦
Exemplo 4.2.10. As seguintes funções são produtos internos em R3 :
hv, wi := 5v1 w1 + 3v2 w2 + 8v3 w3
hv, wi := v1 w1 + v2 w2 + 10v3 w3
hv, wi := 3v1 w1 + 3v2 w2 + 2v3 w3 ,
4.2. PRODUTO INTERNO 133

sendo v = (v1 , v2 , v3 )T e w = (w1 , w2 , w3 )T . A demonstração das propriedades (P1)–(P3)


é análoga à do lema 4.2.4. ♦
Os exemplos precedentes mostram claramente que o produto interno canônico
é somente um caso particular de produto interno, ainda que se trate do exemplo
padrão.
Observação 4.2.11. Sejam V um espaço vetorial euclidiano e W ⊂ V um
subespaço vetorial. O produto escalar h · , · i : V × V → R se restringe à função
h · , · i|W ×W : W × W → R. Essa função é também um produto escalar, pois as
propriedades (P1)–(P3), como valem para todo vetor de V , em particular valem
para todo vetor de W . Por isso, um subespaço vetorial de um espaço vetorial
euclidiano herda um produto escalar por restrição, portanto se torna euclidiano de
modo canônico. Uma observação análoga vale para as normas e as distâncias. ♦
Daqui em diante denotaremos por (V, h · , · i) um espaço vetorial euclidiano, sem
repeti-lo cada vez.
4.2.1. Norma e produto interno. Agora vamos estudar as relações entre a
noção de norma e a de produto escalar. Observamos que a fórmula (77) equivale à
hv, vi = kvk2 . Em geral, damos a seguinte definição.
Definição 4.2.12. A norma induzida pelo produto interno em V é definida por
p
(78) kvk := hv, vi. ♦
Lema 4.2.13. A função (78) é uma norma, a qual torna todo espaço vetorial
euclidiano um espaço vetorial real normado (portanto também um espaço métrico).
Demonstração. Vamos verificar que as três propriedaes fundamentais do pro-
duto interno implicam as três propriedades fundamentais da norma. (N1) É claro
que k0k = h0, 0i = 0, por causa da bilinearidade do produto interno. Reciproca-
mente, se kvk = 0, então hv, vi = 0, portanto, pela propriedade (P3) do produto
interno, temos que v = 0. (N2) Pela propriedade (P1) temos:
p p
kλvk = hλv, λvi = λ2 hv, wi = |λ| · kvk.
(N3) Mostraremos a prova em seguida (fórmula (82)). 
Exemplo 4.2.14. A norma induzida pelo produto interno canônico em Rn é a eucli-
diana. As normas induzidas pelos produtos internos dos exemplos 4.2.8, 4.2.9 e 4.2.10 são
as dos exemplos 4.1.6, 4.1.7 e 4.1.8. ♦
Agora podemos formular duas perguntas naturais:
(1) Toda norma em um espaço vetorial real é induzida por um produto interno?
(2) Se uma norma for induzida por um produto interno, este é único? Equiva-
lentemente, dois produtos internos distintos no mesmo espaço vetorial real
V induzem duas normas distintas?
Vamos mostrar que a primeira resposta é negativa e a segunda positiva. Comecemos
pela segunda. Seja (V, k · k) um espaço vetorial real normado e suponhamos que a
norma seja induzida por um produto interno. Vamos demostrar que este produto
134 4. PRODUTO INTERNO E ORIENTAÇÃO

pode ser completamente deduzido a partir da norma, portanto é único. De fato,


aplicando as propriedades (P1) e (P2), temos que:
hv + w, v + wi = hv, vi + 2hv, wi + hw, wi,
logo, aplicando a fórmula (78), obtemos:
1

(79) hv, wi = 2
kv + wk2 − kvk2 − kwk2 .
Isso mostra que o produto interno pode ser escrito somente em função da norma, por-
tanto dois produtos escalares distintos induzem normas distintas, como querı́amos
demonstrar. Ademais, obtemos um critério para verificar se uma norma é induzida
por um produto interno. De fato, se o for, este produto coincide com (79), portanto,
fixada uma norma, consideramos a função (79) e verificamos se satisfaz as propri-
edades (P1)–(P3). Resolvendo os exercı́cios da seção 4.2.4 (v. ex. 4.10), o leitor
verificará que as normas do exemplo 4.1.9, exceto o caso k = 2 na fórmula (145),
não são induzidas por um produto escalar. Isso mostra que a resposta à primeira
pergunta deste parágrafo é negativa.

4.2.2. Ângulos e produto interno. Agora chegamos à motivação principal


para introduzir a noção de produto interno, ou seja, o fato que esta noção seja estri-
tamente ligada à de ângulo. A ligação é devida à seguinte desigualdade fundamental.
Teorema 4.2.15 (Desigualdade de Cauchy-Schwartz). Seja V um espaço veto-
rial euclidiano. Para todos v, w ∈ V :
|hv, wi| ≤ kvk · kwk.
Demonstração. Pelas propriedades (P1)–(P3), para todo λ ∈ R temos:
hv + λw, v + λwi ≥ 0 (P3)
hv, vi + λhw, vi + λhv, wi + λ2 hw, wi ≥ 0 (P1)
hv, vi + 2λhv, wi + λ2 hw, wi ≥ 0 (P2).
Chegamos a um polinômio de segundo grau na variável λ, o qual é sempre positivo
ou nulo. Logo, o discriminante não pode ser positivo:

(80) 4
= hv, wi2 − hv, vihw, wi ≤ 0,
ou seja, hv, wi2 ≤ kvk2 kwk2 . 

Se v, w 6= 0, a desigualdade de Chauchy-Schwartz pode ser escrita da seguinte


maneira:
hv, wi
−1 ≤ ≤1
kvk · kwk
portanto podemos definir os ângulos θ e −θ entre v e w por:
hv, wi
(81) cos θ := .
kvk · kwk
4.2. PRODUTO INTERNO 135

Como o ângulo ±θ fica definido a partir de cos θ, precisamos de uma definição da


função cosseno independente da noção de ângulo. Podemos defini-la através da série
de potências correspondente:
+∞
X θ2n
cos θ := (−1)n .
n=0
(2n)!
Observação 4.2.16. Graças à desigualdade de Cauchy-Schwartz podemos de-
monstrar a desigualdade triangular enunciada nos lemas 4.1.2 e 4.2.13. De fato,
temos que:
kv + wk2 = hv + w, v + wi = kvk2 + 2hv, wi + kwk2
(82)
≤ kvk2 + 2kvkkwk + kwk2 = (kvk + kwk)2 ,
logo kv + wk ≤ kvk + kwk. Podemos também aplicar a desigualdade de Cauchy-
Schwartz para demonstrar de outro modo (74):
kv − wk2 = hv − w, v − wi = kvk2 − 2hv, wi + kwk2
≥ kvk2 − 2kvkkwk + kwk2 = (kvk − kwk)2 ,

logo kv − wk ≥ kvk − kwk . ♦
Conforme nosso conhecimento de geometria euclidiana, para confirmar de ter
encontrado uma boa definição de ângulo, devemos verificar que θ = 0 se, e somente
se, w = λv, sendo λ > 0, e que θ = π se, e somente se, w = λv, sendo λ < 0. O
fato que w = λv só depende da estrutura de espaço vetorial, portanto não pode ser
imposto pela definição de ângulo. Vamos verificar que isso acontece. Observamos
que 0 e π são os únicos ângulos completamente determinados pelo cosseno, pois
coincidem com o próprio oposto.
Lema 4.2.17. Sejam v, w ∈ V não nulos e seja ±θ o ângulo entre eles.
• θ = 0 se, e somente se, w = λv com λ > 0;
• θ = π se, e somente se, w = λv com λ < 0.
Demonstração. Se w = λv temos que hv, wi = hv, λvi = λhv, vi = λkvk2 .
λkvk2 λ
Ademais, kwk = |λ| · kvk. Logo cos θ = |λ|·kvk 2 = |λ| , portanto vale 1 se λ > 0 e

−1 se λ < 0. Reciprocamente, seja θ = 0 ou θ = π. Então |hv, wi| = kvk · kwk,


portanto o discriminante (80) é nulo. Isso implica que o polinômio de segundo grau
hv, vi + 2λhv, wi + λ2 hw, wi, cujo discriminante é (80), admite uma (única) raiz real,
ou seja, existe λ ∈ R tal que hv + λw, v + λwi = 0. Pela propriedade (3), isso implica
que v + λw = 0, ou seja, v = −λw. Já vimos que, se −λ > 0, então θ = 0, enquanto,
se −λ < 0, então θ = π. 
Corolário 4.2.18. Vale a igualdade |hv, wi| = kvk · kwk se, e somente se, a
famı́lia {v, w} é dependente.
Demonstração. (⇐) Se v = 0 ou w = 0 a tese é óbvia. Se w = λv, temos
que |hv, λvi| = |λ| · kvk2 = kvk · kλvk. (⇒) Se v = 0 ou w = 0 a tese é óbvia.
Se ambos forem não nulos, então |cos θ| = 1, portanto, pelo lema 4.2.17, {v, w} é
dependente. 
136 4. PRODUTO INTERNO E ORIENTAÇÃO

No vol. I afirmamos também que, para confirmar de ter encontrado uma boa
definição de ângulo, devemos verificar que, se um vetor u estiver incluso entre v e w,
então o ângulo de v a w tem que coincidir com a soma entre o ângulo de v a u e o
de u a w. Demonstraremos isso quando teremos introduzido a noção de orientação
(corolário 4.6.27).

4.2.3. Matriz representativa e mudança de base. Seja A = {a1 , . . . , an }


uma base ordenada de V . A base A define naturalmente a seguinte matriz, dita
matriz representativa do produto escalar a respeito de A:
(83) ν(A) := [hai , aj i].
Trata-se da matriz cuja entrada (i, j) é o produto escalar entre ai e aj , logo é
uma matriz simétrica. Dados v 1 , v 2 ∈ V , sejam v 1 = λ1 a1 + · · · + λn an e v 2 =
µ1 a1 + · · · + µn an . Temos que:
hv 1 , v 2 i = hλi ai , µj aj i = λi hai , aj iµj
portanto, definindo os vetores λ = (λ1 , . . . , λn )T ∈ Rn e µ = (µ1 , . . . , µn )T ∈ Rn ,
obtemos:
(84) hv 1 , v 2 i = λT · ν(A) · µ.
Observamos que, se V = Rn com o produto interno canônico e A for a base canônica,
então ν(A) = In , λ = v 1 e µ = v 2 , portanto a fórmula (84) coincide com a (76).
Observação 4.2.19. Por causa da fórmula (84) a matriz representativa de um
produto escalar a respeito de uma base não pode ser uma matriz simétrica qualquer,
e sim tem que ser uma matriz A ∈ M (n; R) definida positiva, ou seja, tal que λT Aλ ≥
0 para todo λ ∈ Rn , valendo a igualdade se, e somente se, λ = 0. Mostraremos que
isso equivale ao fato que todo autovalor de A é positivo (em particular, A tem que ser
invertı́vel), mas para demonstrar este resultado precisaremos do teorema espectral
real, que estudaremos no capı́tulo ??. ♦
Observação 4.2.20. Sejam V = Rn e A = C a base canônica. Já observamos
que, se o produto interno for o canônico, a fórmula (84) coincide com a (76). Con-
sideremos agora um produto interno genérico em Rn . Na fórmula (84) temos que
λ = v 1 e µ = v 2 , portanto, se A := ν(C), temos que

(85) hv 1 , v 2 i = v T1 A v 2 .
Isso demonstra que todo produto interno em Rn é da forma (85), sendo A ∈ GL(n; R)
uma matriz simétrica definida positiva. ♦
Observação 4.2.21. A matriz ν(A) pode ser definida através da fórmula (83)
para qualquer famı́lia A = {a1 , . . . , an } ⊂ V , mesmo se não for uma base de V . Neste
caso não será uma matriz definida positiva (nem invertı́vel em geral), mas continua
sendo simétrica. Ademais, se não pedirmos que A seja uma base, o número de
elementos de A pode também ser diferente de n = dim V . ♦
4.2. PRODUTO INTERNO 137

Vamos agora verificar como muda a matriz representativa de um produto escalar


mudando a base correspondente. Sejam A = {a1 , . . . , an } e B = {b1 , . . . , bn } duas
bases ordenadas de V . Sejam A = ν(A) = [αij ], B = ν(B) = [βij ] e C = µ(A, B) =
[γij ]. Temos que:
βij = hbi , bj i = hγ ki ak , γ hj ah i = γ ki γ hj hak , ah i = (γ T )i k αkh γ hj
portanto
(86) B = C T AC.
Definição 4.2.22. Duas matrizes simétricas A, B ∈ S(n; R) são ditas congru-
entes se existe uma matriz invertı́vel C ∈ GL(n; R) tal que B = C T AC. ♦
O leitor pode verificar que a congruência de matrizes é uma relação de equi-
valência (v. exercı́cio 4.15 da seção 4.2.4). Observamos que a relação (86) faz sen-
tido também se C não é invertı́vel, mas neste caso A e B não são consideradas
congruentes (nem se trataria de uma relação de equivalência). Contudo, se A e B
representarem um produto interno, então é automático que C seja invertı́vel. De
fato, A e B são invertı́veis (v. observação 4.2.19) e det B = det A · (det C)2 , logo
det C 6= 0.
Observação 4.2.23. Veremos na próxima seção (observação 4.3.14) que, em
um espaço vetorial euclidiano, é sempre possı́vel encontrar uma base A tal que
ν(A) = In . Por isso uma matriz simétrica pode representar um produto escalar se, e
somente se, é congruente à identidade, ou seja, pode ser escrita na forma A = C T C,
sendo C invertı́vel (isso já implica que A é simétrica, pois (C T C)T = C T C). Dito
em outras palavras, a classe de equivalência da identidade, a respeito da relação de
congruência, contém as matrizes que representam os produtos escalares, isto é, as
matrizes simétricas definidas positivas. No capı́tulo 8 estudaremos as demais classes
de equivalência. ♦
Observação 4.2.24. Conforme a observação 4.2.21, a fórmula (86) vale, com a
mesma demonstração, mesmo se B não for uma base de V . Neste caso B pode não ser
invertı́vel (em particular, pode não ser congruente a A). Ademais, a cardinalidade
de B pode ser diferente de n = dim V ; neste caso C é uma matriz retangular, mas
continua valendo a fórmula (86).
Pelo contrário, é necessário que A seja uma base, para poder exprimir cada
elemento de B como combinação linear de A de modo único, ou seja, para que
C = µ(A, B) exista e seja única. Em princı́pio, poderı́amos tirar também esta
hipótese: se A for independente mas não gerar V , a construção vale pedindo que
B ⊂ hAi; enfim, se A for dependente e B ⊂ hAi, podemos achar uma matriz C que
verifica (86), mas não é única. ♦
4.2.4. Exercı́cios.
4.6. Calcule os ângulos entre os vetores v 1 = (0, 1, −1, 0, 0) e v 2 = (0, 0, 1, 1, 0) em R5
com o produto escalar canônico.
4.7. Calcule os ângulos entre os vetores v 1 = (0, 1, −1, 0, 0) e v 2 = (0, 0, 1, 1, 0) (os
mesmos do exercı́cio precedente) em R5 com o produto escalar hv, wi = v1 w1 + 3v2 w2 +
2v3 w3 + 2v4 w4 + v5 w5 .
138 4. PRODUTO INTERNO E ORIENTAÇÃO

4.8. Calcule os ângulos entre os polinômios p(x) = x2 − x + 1 e q(x) = x3 + x + 1 em


R[x] com o produto interno definido no exemplo 4.2.8.
4.9. Seja h · , · i : Rn × Rn → R definida por (x1 , . . . , xn ), (y1 , . . . , yn ) 7→ λ1 x1 y1 + · · · +
λn xn yn , sendo λ1 , . . . , λn ∈ R fixados. Demonstre que essa função é um produto interno
se, e somente se, λi > 0 para todo i.
4.10. Verifique que as normas k · kk (para k ≥ 1) e k · k∞ em Rn (v. exemplo 4.1.9),
exceto o caso k = 2, não são induzidas por um produto escalar.
4.11. Seja k · k induzida por um produto interno em V . Demonstre que, se valer a
igualdade kv + wk = kvk + kwk, então {v, w} é dependente; em particular, w = λv ou
v = λw sendo λ ≥ 0. Isso corresponde ao fato que, se em um triângulo o comprimento de
um lado for igual à soma dos dois demais, então o triângulo é degenerado. Resolvendo o
exercı́cio 4.5 da seção 4.1.1, o leitor já verificou que isso pode não valer em relação a uma
norma genérica.
4.12. Calcule a matriz representativa do produto interno canônico em R3 a respeito
da base A = {(1, 1, 0), (1, 1, 1), (1, −1, 1)}. Calcule a matriz representativa a respeito da
base B = {(1, 1, −1), (3, 1, 2), (−2, 0, −1)} a partir da definição (83) e aplicando a fórmula
(86), verificando que se obtém o mesmo resultado.
4.13. Calcule a matriz representativa do seguinte produto interno em R3 :
hv, wi = 3v1 w1 + 2v2 w2 + v3 w3 + 2v2 w1 + 2v1 w2 + v1 w3 + v3 w1 + v2 w3 + v3 w2 ,
a respeito da base A = {(1, 0, 0), (0, −1, 1), (0, 2, 1)}.
4.14. Seja V = {(x, y, z, w) : x+y +2z +w = 0} ⊂ R4 . Ache a matriz representativa do
produto escalar canônico em V a respeito da base A = {(−1, 0, 0, 1), (0, 1, 0, −1), (0, 0, −1, 2)}.
Usando essa matriz, calcule o produto interno h(1, 1, 1, −4), (3, −1, 1, −4)i.
4.15. Sejam A e B duas matrizes reais simétricas de ordem n. Lembramos que A e B
são conjugadas se existe C ∈ GL(n; R) tal que B = C −1 AC e são congruentes se existe
C ∈ GL(n; R) tal que B = C T AC.
• Demonstre que a congruência é uma relação de equivalência (tão como a con-
jugação).
• Mostre que A e B podem ser congruentes sem serem conjugadas.
Verificaremos no capı́tulo 8 que, se A e B forem conjugadas, então são congruentes.

4.3. Ortogonalidade
Na seção precedente definimos a noção de ângulo entre dois vetores, o qual
fica determinado a menos de sinal. Isso nos permite definir a noção de ortogonali-
dade. Queremos que dois vetores sejam ortogonais quando o ângulo entre eles é ± π2 .
Contudo, o ângulo está definido somente quando ambos os vetores são não nulos,
enquanto preferimos dar a seguinte definição de ortogonalidade, que vale para todo
par de vetores.
Definição 4.3.1. Dois vetores v 1 , v 2 ∈ V são ortogonais ou perpendiculares se
hv 1 , v 2 i = 0. Usamos a notação v 1 ⊥ v 2 . ♦
Observações 4.3.2. Observamos o seguinte.
4.3. ORTOGONALIDADE 139

• Se v 1 = 0 ou v 2 = 0, então hv 1 , v 2 i = 0, portanto o vetor nulo é ortogonal


a todo vetor de V .
• Pelo item precedente, o vetor nulo é ortogonal a si mesmo. Por causa da
terceira propriedade do produto escalar, isto é, o fato que seja definido
positivo, 0 é o único vetor de V ortogonal a si mesmo.
• Um vetor v ∈ V é ortogonal a todo vetor de V se, e somente se, v = 0.
De fato, pelo primeiro item o vetor nulo é ortogonal a todo vetor de V .
Reciprocamente, se v for ortogonal a todo vetor de V , então é ortogonal a
si mesmo, logo v = 0 pelo item precedente.
• Se v 1 6= 0 e v 2 6= 0, seja ±θ o ângulo entre os dois; então v 1 e v 2 são
ortogonais se, e somente se, cos θ = 0, o que ocorre se, e somente se, θ = ± π2 .
O fato que o vetor nulo seja ortogonal a qualquer outro vetor é uma consequência
da definição que escolhemos de ortogonalidade, sem um significado geométrico par-
ticular. ♦
Observação 4.3.3. A partir da fórmula (79) obtemos que:
(87) v⊥w ⇔ kv + wk2 = kvk2 + kwk2 .
Se {v, w} for independente, trata-se do teorema de Pitágoras e do seu inverso, apli-
cados ao triângulo cujos lados são v, v + w e o segmento orientado congruente a
w que parte do ponto final de v (imaginando os vetores como setas que partem da
origem). ♦
4.3.1. Famı́lias ortogonais e ortonormais. Vamos agora aprofundar o con-
ceito de ortogonalidade.
Definição 4.3.4. Uma famı́lia A = {v 1 , . . . , v k } ⊂ V é dita ortogonal se:
• hv i , v j i = 0 para todos i, j ∈ {1, . . . , k} tais que i 6= j;
• v i 6= 0 para todo i ∈ {1, . . . , k}. ♦
Lema 4.3.5. Uma famı́lia ortogonal é linearmente independente.
Demonstração. Seja A = {v 1 , . . . , v k } ⊂ V uma famı́lia ortogonal. Sejam
λ1 , . . . , λk ∈ R tais que λ1 v 1 + · · · + λk v k = 0. Para todo i entre 1 e k temos que:
0 = h0, v i i = hλ1 v 1 + · · · + λk v k , v i i = λ1 hv 1 , v i i + · · · + λk hv k , v i i = λi hv i , v i i.
Como v i 6= 0 por hipótese, temos que hv i , v i i =
6 0, logo λi = 0. 
Pensemos na base canônica de Rn . É fácil verificar que se trata de uma famı́lia
ortogonal. Ademais, todo elemento tem norma 1. Mostraremos que essa propriedade
é bastante significativa, portanto merece um nome especı́fico.
Definição 4.3.6. Uma famı́lia A = {v 1 , . . . , v k } ⊂ V é dita ortonormal se for
ortogonal e kv i k = 1 para todo i ∈ {1, . . . , k}. ♦
Observamos que a famı́lia A = {v 1 , . . . , v k } é ortonormal se, e somente se, verifica
a seguinte igualdade para todos i, j ∈ {1, . . . , k}:
(88) hv i , v j i = δij
sendo δij o delta de Kronecker.
140 4. PRODUTO INTERNO E ORIENTAÇÃO

Definição 4.3.7. Uma base ortonormal de V é uma base de V que é também


uma famı́lia ortonormal. Analogamente, uma base ortogonal de V é uma base de V
que é também uma famı́lia ortogonal. ♦
O seguinte lema mostra uma propriedade importante das coordenadas de um
vetor a respeito de uma base ortonormal.
Lema 4.3.8. Sejam v ∈ V e A = {a1 , . . . , an } uma base ortonormal de V . Então:
(89) v = hv, a1 ia1 + · · · + hv, an ian .
Demonstração. Sendo A uma base, temos que v = λ1 a1 + · · · + λn an . Logo
hv, ai i = hλ1 a1 + · · · + λn an , ai i = λ1 ha1 , ai i + · · · + λn han , ai i = λi . 
Definição 4.3.9. Chamamos de unitário um vetor de norma 1. Dado um vetor
não nulo v ∈ V , chamamos de normalização de v o seguinte vetor:
v
uv := . ♦
kvk
Definição 4.3.10. Sejam v, w ∈ V dois vetores não nulos e seja ±θ o ângulo
entre os dois. A projeção ortogonal de v na direção de w é o seguinte vetor:
(90) πw (v) := kvk cos θ uw .
Se v = 0, definimos πw (0) := 0. ♦
Aplicando a fórmula (81), é fácil verificar que:
(91) πw (v) = hv, uw iuw .
Equivalentemente:
hv, wi
(92) πw (v) = w.
hw, wi
A fórmula (92) é mais prática pois não contém normas, portanto nos permite evitar
de sacar raı́zes quadradas.
Observação 4.3.11. Suponhamos que A = {a1 , . . . , an } seja uma base orto-
gonal de V . Claramente A0 = {ua1 , . . . , uan } é uma base ortonormal, portanto,
aplicando a fórmula (89), temos que:
v = hv, ua1 iua1 + · · · + hv, uan iuan .
Aplicando (92) temos que:
hv, a1 i hv, an i
(93) v= a1 + · · · + a .
ha1 , a1 i han , an i n
A fórmula (93) generaliza a (89) a bases ortogonais mas não necessariamente orto-
normais. Podı́amos também prová-la diretamente, como fizemos para a (89). Essa
fórmula afirma que, dada uma base ortogonal, um vetor é a soma das suas projeções
ortogonais nas direções dos elementos da base. ♦
4.3. ORTOGONALIDADE 141

Vimos no vol. I que, graças ao método de ortogonalização de Grahm-Schmidt,


cuja ideia geométrica explicamos em detalhe, é possı́vel achar uma base ortonormal
de um subespaço vetorial V ⊂ Rn a partir de uma base fixada qualquer. Trata-se
de tirar indutivamente a cada vetor da base a sua projeção na direção dos vetores
precedentes, normalizando o resultado. Agora podemos repetir esta construção para
qualquer espaço vetorial euclidiano V , mostrando a demonstração completa.
Teorema 4.3.12 (Método de ortonormalização de Grahm-Schmidt). Seja B =
{v 1 , . . . , v n } uma base de V . Definimos por indução, a partir de a1 := uv1 :
i−1
X
(94) a0i := v i − hv i , aj iaj ai := ua0i
j=1

para todo i entre 2 e n. A famı́lia A = {a1 , . . . , an } é uma base ortonormal de V .


Demonstração. É suficiente demonstrar que A é uma famı́lia ortonormal,
pois, dado que contém n elementos, pelo lema 4.3.5 é uma base de V . Provemos por
indução que, para todo i entre 1 e n:
• a0i 6= 0, logo ai está bem definido;
• a famı́lia {a1 , . . . , ai } é ortonormal;
• ha1 , . . . , ai i = hv 1 , . . . , v i i.
Para i = n obtemos a tese.2 Seja i = 1. Observamos que v 1 6= 0, por ser B uma
base, logo a1 está bem definido e a famı́lia {a1 } é ortonormal. Ademais, é claro
que ha1 i = hv 1 i. Suponhamos que as hipóteses valham para i − 1. Seja por absurdo
a0i = 0. Então, pela fórmula (170), v i é combinação linear de {a1 , . . . , ai−1 }, portanto,
pela terceira hipótese de indução, v i é combinação linear de {v 1 , . . . , v i−1 }, o que
não pode ocorrer, pois B é uma base. Isso demonstra que a0i 6= 0. Para demonstrar
que {a1 , . . . , ai } é ortonormal, é suficiente verificar que o último vetor é ortogonal
aos precedentes, ou seja, hai , ah i = 0 para 1 ≤ h < i. De fato, temos que:
i
X
ha0i , ah i = hv i , ah i − hv i , aj ihaj , ah i
j=1
i
X
= hv i , ah i − δjh hv i , aj i = hv i , ah i − hv i , ah i = 0.
j=1

Por isso também hai , ah i = 0. Enfim, como, pela fórmula (170), ai ∈ ha1 , . . . , ai−1 , v i i,
pela terceira hipótese de indução temos que ai ∈ hv 1 , . . . , v i−1 , v i i, logo, aplicando
novamente a terceira hipótese, temos que ha1 , . . . , ai i ⊂ hv 1 , . . . , v i i. Explicitando v i
em (170) vemos que v i ∈ ha1 , . . . , ai i, logo, aplicando a hipótese de indução, temos
que hv 1 , . . . , v i i ⊂ ha1 , . . . , ai i. 
Podemos também aplicar o método de Grahm-Schmidt da seguinte maneira equi-
valente, normalizando todos os vetores no final.
2O terceiro item, ou seja, ha1 , . . . , ai i = hv 1 , . . . , v i i, só é necessário para demonstrar indutiva-
mente o primeiro, ou seja, a0i 6= 0.
142 4. PRODUTO INTERNO E ORIENTAÇÃO

Teorema 4.3.13 (Método de ortonormalização de Grahm-Schmidt II). Seja


B = {v 1 , . . . , v n } uma base de V . Definimos:
i−1
X hv i , a0j i 0
(95) a01 := v 1 a0i := v i − a
j=1
ha0j , a0j i j
para todo i entre 2 e n. Enfim:
ai := ua0i ∀i ∈ {1, . . . , n}.
A famı́lia A = {a1 , . . . , an } é uma base ortonormal de V .
Observação 4.3.14. Considerando a matriz (83), uma base A de V é ortonor-
mal se, e somente se, ν(A) = In . Em particular, pela fórmula (84), temos que A é
ortonormal se, e somente se:
(96) hv 1 , v 2 i = hλ, µi
para todos v 1 , v 2 ∈ V . Isso demonstra a observação 4.2.23. ♦
Observação 4.3.15. Sejam n = dim V , u ∈ V um vetor unitário e A =
{a1 , . . . , an } uma base ortonormal de V . Temos que hu, ai i = cos θi , sendo θi o
ângulo entre u e ai . Como A é ortonormal, pela fórmula (89) temos que u =
cos θ1 · a1 + · · · + cos θn · an , logo, pela fórmula (96), kuk2 = cos2 θ1 + · · · + cos2 θn .
Isso implica que
(97) cos2 θ1 + · · · + cos2 θn = 1.
Os cossenos cos θi são ditos cossenos diretores de u (ou de um múltiplo positivo de
u). Para n = 2 a identidade (97) se torna cos2 θ1 + cos2 θ2 = 1; de fato, nesse caso,
θ2 = π2 − θ1 , portanto cos2 θ2 = sin2 θ1 . ♦
4.3.2. Bases ortonormais e matriz de mudança de base. Vamos analisar
o comportamento das matrizes de mudança de base em relação às bases ortonormais.
Lema 4.3.16. Sejam A = {a1 , . . . , an } uma base ortonormal de V e B = {b1 , . . . ,
bh } ⊂ V uma famı́lia de vetores. Seja µ(A, B) = [αij ]. Temos que:
(98) αij = hai , bj i.
Demonstração. Por definição de µ(A, B), temos que bj = α1j a1 + · · · + αnj an .
Pela fórmula (89), temos que αij = hai , bj i. 
Vamos agora introduzir uma classe importante de matrizes, naturalmente ligada
ao conceito de base ortonormal.
Definição 4.3.17. Uma matriz A ∈ M (n; R) é dita ortogonal se A−1 = AT , ou
seja, se AAT = AT A = In . Denotamos por O(n) o conjunto das matrizes ortogonais
de ordem n. ♦
Observação 4.3.18. Se A ∈ O(n), então det A = ±1. De fato, como AT A = In ,
temos que (det A)2 = 1. ♦
A matriz de mudança de base de uma base ortonormal a outra é ortogonal. Mais
precisamente, vale o seguinte lema.
4.3. ORTOGONALIDADE 143

Lema 4.3.19. Sejam A = {a1 , . . . , an } uma base ortonormal de V e B = {b1 , . . . ,


bn } ⊂ V . A famı́lia B é uma base ortonormal de V se, e somente se, µ(A, B) ∈ O(n).
Demonstração – Método I. Sejam C = µ(A, B) e B = ν(B). Sendo A
ortonormal, temos que ν(A) = In , portanto, pela fórmula (86) e a observação 4.2.24,
B = C T C. Dado que B é uma famı́lia ortonormal (logo uma base de V , sendo
independente e contendo n elementos) se, e somente se, B = In , obtemos a tese.3 
Demonstração – Método II. (⇒) Seja µ(A, B) = [αij ]. Pela fórmula (98),
temos que αij = hai , bj i. Analogamente, se µ(B, A) = [βij ], temos que βij =
hbi , aj i = αji , logo µ(B, A) = µ(A, B)T . Como µ(B, A) = µ(A, B)−1 , obtemos a
tese. (⇐) Seja µ(A, B) = [αij ]. Temos que:
hbi , bj i = hαs i a s , αt j a t i = αs i αt j has , at i
= αs i αt j δst = αs i αsj = (αT )i s αsj = (AT A)ij = δij . 
Corolário 4.3.20. Uma matriz A ∈ M (n; R) é ortogonal se, e somente se, as
colunas de A formam uma base ortonormal de Rn , se, e somente se, as linhas de A
formam uma base ortonormal de Rn (em relação ao produto interno canônico).
Demonstração. Sejam A a famı́lia das colunas de A e C a base canônica de
n
R . Temos que A = µ(C, A). Sendo C ortonormal, a tese segue imediatamente do
lema precedente. Como A é ortogonal se, e somente se, AT é ortogonal, a tese vale
também a respeito das linhas. 
Observação 4.3.21. O corolário precedente pode ser provado também com uma
conta algébrica direta. De fato, a entrada (i, j) de AT A é o produto escalar entre a
linha i de AT e a coluna j de A, ou seja, o produto escalar entre as colunas i e j de
A. Logo, AT A = In se, e somente se, o produto escalar entre as colunas i e j de A
é δij . Considerando AAT obtemos mesmo o resultado a respeito das linhas. ♦
Consideremos três bases ortonormais A, B e C de V . Temos que µ(A, B) e µ(B, C)
são matrizes ortogonais e o produto µ(A, B) · µ(B, C) é ortogonal também, pois
coincide com µ(A, C). Analogamente, a matriz inversa µ(A, B)−1 é ortogonal, pois
coincide com µ(B, A). Podemos também verificar estas propriedades diretamente a
partir da definição, como mostra o segunte lema.
Lema 4.3.22. Se A, B ∈ O(n), então AB ∈ O(n) e A−1 ∈ O(n).
Demonstração. Temos que (AB)T (AB) = B T AT AB = B T In B = B T B = In
e (A−1 )T (A−1 ) = (AT )T (AT ) = AAT = In . 
O lema precedente implica que O(n) é um grupo, pois:
• o produto de matrizes está bem definido dentro de O(n) e é associativo;
• In ∈ O(n), portanto O(n) possui um elemento neutro;
• todo elemento de O(n) possui um inverso.
3Agradeço ao aluno Murilo Barbosa Alves por ter sugerido esta demonstração, que tinha sido
incluı́da só parcialmente na versão precedente destas notas.
144 4. PRODUTO INTERNO E ORIENTAÇÃO

Observamos que, como conjunto, O(n) ⊂ GL(n; R), sendo o produto em O(n) a
restrição do em GL(n; R). Por isso, O(n) é dito subgrupo de GL(n; R). Temos
também a inclusão de conjuntos O(n) ⊂ M (n), porém O(n) não é um subespaço
vetorial de M (n), pois a soma de matrizes ortogonais em geral não é ortogonal (pode
nem ser invertı́vel).
4.3.3. Produtos internos e bases ortonormais. Já vimos que todo espaço
vetorial euclidiano (finitamente gerado e diferente de {0}) admite uma base ortonor-
mal: é suficiente escolher uma base qualquer e aplicar o método de Grahm-Schmidt.
Também é claro que, se dim V ≥ 2, existem infinitas bases ortonormais, pois, fi-
xando uma e mudando de base através de uma matriz ortogonal, se obtém outra
base ortonormal. Reciprocamente, dados um espaço vetorial real V e uma base A
de V , existe um único produto interno em V que torna A ortonormal, como mostra
o seguinte lema.
Lema 4.3.23. Sejam V um espaço vetorial real e A = {a1 , . . . , an } uma base
de V . Existe um único produto interno em V que torna A ortonormal, definido da
seguinte maneira. Sejam v = λi ai e w = µj aj . Temos:4
(99) hv, wi = λ1 µ1 + · · · + λn µn .
Demonstração. Sejam h · , · i : V × V → R uma função bilinear e aij :=
hai , aj i. Se v = λi ai e w = µj aj , por bilinearidade temos que hv, wi = λi µj aij .
Como A tem que ser uma base ortonormal, necessariamente aij = δij , portanto
hv, wi = λi µi . Isso demonstra que, se existir um produto interno tal que A é orto-
normal, então é definido por (99). Só falta provar que a função h · , · i : V × V → R,
definida por (99), é efetivamente um produto interno. Sejam v 0 = ξ i ai e α, β ∈ R.
Temos:
(99)
hαv + βv 0 , wi = h(αλi + βξ i )ai , µj aj i = (αλi + βξ i )µi
(99)
= α(λi µi ) + β(ξ i µi ) = αhv, wi + βhv 0 , wi.
A mesma demostração vale do outo lado, portanto (99) é bilinear. É imediato
verificar que é simétrica e definida positiva. 
Observamos no começo desta seção que, em geral, para um produto interno
fixado em V existem infintas bases ortonormais, enquanto, fixada uma base A de V ,
existe um único produto interno que torna A ortonormal. Isso implica que várias
bases de A podem determinar o mesmo produto escalar. Podemos exprimir o mesmo
conceito da seguinte maneira equivalente. Fixado um espaço vetorial V , sejam B
conjunto das bases de V e M o conjunto dos produtos escalares de V . Fica definida
a função
(100) Φ: B → M
que associa à base A o único produto que torna A ortonormal. Essa função é sobre-
jetora, pois todo produto admite pelo menos uma base ortonormal, mas não injetora,
4A seguinte fórmula é equivalente à (96).
4.3. ORTOGONALIDADE 145

pois duas bases distintas podem ser ortonormais a respeito do mesmo produto. Po-
demos tornar Φ uma bijeção quocientando o domı́nio B por uma adequada relação
de equivalência, graças ao seguinte lema.
Lema 4.3.24. Seja V um espaço vetorial real e sejam A e B duas bases ordenadas
de V . Seja h · , · i o produto escalar que torna A ortonormal e seja hh · , · ii o que
torna B ortonormal. Os dois produtos coincidem se, e somente se, µ(A, B) ∈ O(n).
Demonstração. Como A é ortonormal a respeito de h · , · i, pelo lema 4.3.19
temos que B é ortonormal a respeito do mesmo h · , · i se, e somente se, µ(A, B) ∈
O(n). O fato que B seja ortonormal a respeito de h · , · i equivale ao fato que hh · , · ii =
h · , · i. 
Para poder calcular a matriz de mudança de base, as duas bases correspondentes
têm que ser ordenadas. Contudo, o fato que uma base seja ortonormal não depende
da ordem, logo, o fato que µ(A, B) seja uma matriz ortogonal não depende da ma-
neira em que ordenamos A e B. Por isso, podemos considerar A, B ∈ B equivalentes
se, e somente se, ordenando A e B de qualquer maneira temos que µ(A, B) ∈ O(n).
Usamos a notação
(101) A ∼O B.
Por causa do lema 4.3.24, temos que Φ(A) = Φ(B), sendo Φ a função (100), se, e
somente se, A e B são equivalentes. Por isso, obtemos a seguinte bijeção:
'
Φ : B/ ∼O −→ M
(102)
[A] 7→ Φ(A).
Equivalentemente, temos as seguintes bijeções, inversas entre si:
  Φ  
Bases & Produtos
(103) ∼O f .
de V internos de V
−1
Φ

−1
A bijeção Φ é a função (102) e a inversa Φ associa a cada produto escalar de V o
conjunto das bases ortonormais correspondentes, o qual é uma classe de equivalência
a respeito de ∼O .

4.3.4. Complemento ortogonal. Também nesta seção denotaremos por V


um espaço vetorial euclidiano. Dada uma famı́lia não vazia A ⊂ V , podemos consi-
derar o conjunto dos vetores de V ortogonais a todo elemento de A. Este conjunto é
um subespaço vetorial, dito complemento ortogonal de A: por exemplo, se fixarmos
um vetor não nulo v ∈ R3 , o complemento ortogonal é formado pelo plano passante
pela origem, cujo vetor normal é v; analogamente, se fixarmos um vetor não nulo
v ∈ R2 , o complemento ortogonal é formado pela reta passante pela origem, cujo ve-
tor normal é v; se fixarmos dois vetores independentes v e w em R3 , o complemento
ortogonal é formado pela reta passante pela origem, na qual se interceptam os dois
planos com vetores normais v e w.
146 4. PRODUTO INTERNO E ORIENTAÇÃO

Definição 4.3.25. Seja A ⊂ V um subconjunto não vazio. O complemento


ortogonal de A em V , denotado por A⊥ , é o conjunto dos vetores de V ortogonais
a todo vetor de A:
A⊥ := {v ∈ V : hv, wi = 0 ∀w ∈ A}. ♦

Observação 4.3.26. Se A ⊂ B, então B ⊥ ⊂ A⊥ . De fato, se um vetor for


ortogonal aos elementos de B, em particular é ortogonal aos elementos de A. ♦
Lema 4.3.27. Seja A ⊂ V não vazio.
(1) A⊥ é um subespaço vetorial de V ;
(2) A⊥ = hAi⊥ , ou seja, o complemento ortogonal de uma famı́lia dada é igual
ao complemento ortogonal do subespaço gerado pela famı́lia.
Demonstração. (1) Sejam w1 , w2 ∈ A⊥ e λ1 , λ2 ∈ R. Para todo v ∈ A temos
que hv, λ1 w1 + λ2 w2 i = λ1 hv, w1 i + λ2 hv, w2 i = λ1 0 + λ2 0 = 0, logo λ1 w1 + λ2 w2 ∈
A⊥ . (2) Pela observação 4.3.26, temos que hAi⊥ ⊂ A⊥ . Provemos a inclusão
contrária. Seja w ∈ A⊥ . Sejam v 1 , . . . , v k ∈ A e λ1 , . . . , λk ∈ R. Temos que
hλ1 v 1 + · · · + λk v k , wi = λ1 hv 1 , wi + · · · + λk hv k , wi = λ1 0 + · · · λk 0 = 0, portanto
w ∈ hAi⊥ . Isso mostra que A⊥ ⊂ hAi⊥ . 

Em particular, para calcular o complemento ortogonal de um subespaço vetorial


W ⊂ V é suficiente calcular o complemento ortogonal de uma base de W .
Observação 4.3.28. Quando um subespaço vetorial de Rn for dado através de
um sistema linear, é muito simples calcular o complemento ortogonal. Por exemplo,
seja V ⊂ R4 definido por V = {(x, y, z, w) : x − y + 3z = 0, z − w = 0}. As duas
equações que definem V podem ser escritas na forma (x, y, z, w) • (1, −1, 3, 0) = 0 e
(x, y, z, w) • (0, 0, 1, −1) = 0, portanto V ⊥ = h(1, −1, 3, 0), (0, 0, 1, −1)i. Invertendo
o raciocı́nio, como já observamos no vol. I, obtemos outro modo de provar que todo
subespaço vetorial de Rn é o conjunto das soluções de um sistema linear homogêneo.
De fato, seja V ⊂ Rn um sub-espaço vetorial. Seja {v 1 , . . . , v n−k } uma base de V ⊥ .
Então V é definido pelo sistema linear x • v 1 = 0, . . . , x • v n−k = 0. Com isso vemos
também quando dois sistemas lineares homogêneos têm as mesmas soluções: isso
acontece quando os vetores dos coeficientes em cada linha geram o mesmo subespaço
de Rn , sendo este subespaço o complemento ortogonal do subespaço formado pelas
soluções. ♦
Teorema 4.3.29 (Teorema da base ortonormal incompleta). Seja B = {a1 , . . . ,
ak } ⊂ V uma famı́lia ortonormal. É possı́vel completar B a uma base ortonormal
A = {a1 , . . . , ak , ak+1 , . . . , an } de V . Ademais, se W = hBi (logo B é uma base
ortonormal de W ), a famı́lia B 0 = {ak+1 , . . . , an } é uma base ortonormal de W ⊥ .
Demonstração. Aplicando o teorema da base incompleta, podemos completar
B a uma base A0 = {a1 , . . . , ak , v k+1 , . . . , v n } de V . Aplicando o método de Grahm-
Schmidt a A0 , obtemos uma base ortonormal A = {a1 , . . . , ak , ak+1 , . . . , an } de V .
É imediato verificar que os primeiros k vetores, sendo uma famı́lia ortonormal, não
4.3. ORTOGONALIDADE 147

mudam.5 Só falta demonstrar que B 0 é uma base de W ⊥ . Sendo A ortonormal, os


vetores de B 0 são ortogonais aos de B, portanto hB 0 i ⊂ W ⊥ . Seja v ∈ W ⊥ . Sendo
A uma base de V , temos que v = λ1 a1 + · · · + λn an . Pela fórmula (89) temos que
λi = hv, ai i. Como v ∈ W ⊥ , isso implica que λi = 0 para i entre 1 e k, logo v ∈ hB 0 i,
portanto W ⊥ ⊂ hB 0 i. 
Corolário 4.3.30. Seja W ⊂ V um subespaço vetorial. Então:
V = W ⊕ W⊥ (W ⊥ )⊥ = W.
Demonstração. Seja B = {a1 , . . . , ak } uma base ortonormal de W , a qual
existe pelo método de Grahm-Schmidt. Aplicando o teorema 4.3.29, obtemos a base
B 0 = {ak+1 , . . . , an } de W ⊥ , logo dim V ⊥ = n − k. Seja v ∈ W ∩ W ⊥ : então
hv, vi = 0, portanto v = 0.6 Isso mostra que a soma W + W ⊥ é direta, portanto,
como dim W + dim W ⊥ = dim V , concluı́mos que W ⊕ W ⊥ = V . Ademais, se,
w ∈ W e v ∈ W ⊥ , temos que hw, vi = 0, portanto W ⊂ (W ⊥ )⊥ . Como dim(W ⊥ )⊥ =
dim V −dim W ⊥ = dim V −(dim V −dim W ) = dim W , temos que W = (W ⊥ )⊥ . 
Observação 4.3.31. O teorema da base incompleta (não necessariamente orto-
normal), não afirma somente que uma famı́lia independente pode ser completada a
uma base, mas também que é possı́vel escolher os vetores que faltam entre os de uma
base fixada qualquer. Isso não vale no caso ortonormal. Por exemplo, consideremos
a base ortonormal C = {(1, 0), (0, 1)} de R2 e a famı́lia ortonormal B = √12 , √12 .
 

Não é possı́vel completar B a uma base ortonormal de R2 escolhendo o vetor que


falta entre os de C, pois os únicos vetores que podemos acrescentar a B são √12 , − √12
e − √12 , √12 .


4.3.5. Projeção ortogonal. Vamos agora definir o conceito de projeção orto-
gonal de um vetor em um subespaço vetorial.
Definição 4.3.32. Sejam W ⊂ V um subespaço vetorial e v ∈ V . Como
V = W ⊕ W ⊥ , existem únicos w ∈ W e w0 ∈ W ⊥ tais que v = w + w0 . Chamamos
w de projeção de v em W e o denotamos por πW (v).7 ♦
Lema 4.3.33. Sejam v ∈ V e A = {a1 , . . . , ak } uma base ortonormal de W ⊂ V .
Então:
(104) πW (v) = hv, a1 ia1 + · · · + hv, ak iak .
Demonstração. Seja v = w+w0 ∈ W ⊕W ⊥ e completemos A a uma base orto-
normal {a1 , . . . , ak , ak+1 , . . . , an } de V . Pela fórmula (89) temos que v = hv, a1 ia1 +
· · · + hv, an ian . Pelo teorema 4.3.29 sabemos que {ak+1 , . . . , an } é uma base de W ⊥ ,
portanto w = hv, a1 ia1 + · · · + hv, ak iak e w0 = hv, ak+1 iak+1 + · · · + hv, an ian . 
5Em particular, o vetor v i da fórmula (170), para i entre 1 e k, é o vetor ai do enunciado que
Pi−1
estamos demonstrando, logo a fórmula (170) define o vetor a0i = v i − j=0 0 = v i . Como kv i k = 1,
também ai = v i , logo obtemos os vetor de partida.
6Também podı́amos observar que, sendo B∪B 0 uma base de V , necessariamente W ∩W ⊥ = {0}.
7Obviamente isso implica que w 0 = π ⊥ (v).
W
148 4. PRODUTO INTERNO E ORIENTAÇÃO

Observação 4.3.34. Se W = hwi, a fórmula (104) coincide com a (92), norma-


lizando v. ♦
Observação 4.3.35. Para calcular a projeção de um vetor em um subespaço
W ⊂ V , do qual temos uma base A = {w1 , . . . , wk }, podemos atuar de duas manei-
ras equivalentes. A primeira consiste em ortonormalizar a base A e aplicar a fórmula
(104). A segunda consiste em achar uma base A0 = {v k+1 , . . . , v n } de W ⊥ e calcular
os coeficientes da combinação v = λ1 w1 + · · · + λk wk + λk+1 v k+1 + · · · + λn v n . Dessa
maneira, conforme a notação da definição 4.3.32, temos que w = λ1 w1 + · · · + λk wk
e w0 = λk+1 v k+1 + · · · + λn v n , sendo w a projeção procurada. Aplicando o primeiro
método podemos evitar de calcular uma base do complemento ortogonal de W , en-
quanto aplicando o segundo método podemos evitar de ortonormalizar a base de W
da qual partimos. ♦
Observação 4.3.36. Dado um subespaço vetorial de um subespaço vetorial
Z ⊂ W ⊂ V , podemos calcular o complemento ortogonal de Z em W , ou seja, o
conjunto dos vetores de W ortogonais aos de Z (v. observação 4.2.11). Denotamos
esse espaço por Z ⊥W . É fácil verificar que Z ⊥W = W ∩ Z ⊥V . Pelos resultados
precedentes, aplicados a Z ⊂ W , temos que W = Z ⊕ Z ⊥W e (Z ⊥W )⊥W = Z. ♦
4.3.6. Exercı́cios.
4.16. Considere a seguinte função linear:
f : R2 → R3
(x, y) 7→ (x + 2y, x − 2y, 3x − y).
Sejam A = {(1, 1), (1, −1)} e B = √13 , − √13 , √13 , √12 , √12 , 0 , √16 , − √16 , − √26 . Verifi-
   

que que B é ortonormal e calcule µAB (f ) aplicando a fórmula (98).


4.17. Escreva explicitamente o produto interno de R2 tal que a base A = {(1, 1), (0, 2)}
é ortonormal.
4.18. Escreva explicitamente o produto interno de R3 tal que a base A = {(2, 0, 0),
(0, 3, 0), (0, 0, 4)} é ortonormal.
4.19. Determine todas as matrizes ortogonais de ordem 2 (ou seja, pertencentes a
O(2)).
4.20. Sejam:
     
3 0 0 1 0 1 2 0 0
A1 = 0 3 2 A2 = 0 2 0 A3 = 0 3 −1 .
0 2 2 1 0 4 0 −1 1
Quando o leitor terá aprendido o teorema espectral real, poderá verificar que A1 , A2 e
A3 são definidas positivas. Nos seguintes itens, para cada i ∈ {1, 2, 3}, consideraremos o
produto interno em R3 representado por Ai a respeito da base canônica.
(1) Calcule o ângulo entre os vetores (0, 1, 0) e (0, 0, 1).
(2) Ache uma base ortonormal de R3 através do método de Grahm-Schmidt, partindo
da base canônica.
(3) Ache a equação do plano passante por (1, 1, 1) e perpendicular ao vetor (1, 0, 1).
4.4. FUNÇÕES LINEARES ORTOGONAIS 149

4.21. Seja W = h(0, 1, 0, −2, 0), (1, 0, 0, 0, 1)i ⊂ R5 . Calcule o complemento ortogonal
de W a respeito do produto interno canônico de R5 .
4.22. Para cada um dos produtos internos em R3 considerados no exercı́cio 4.20, calcule
uma base do complemento ortogonal da reta h(2, −1, 3)i.
4.23. Para cada um dos produtos internos em R3 considerados no exercı́cio 4.20, calcule
a projeção ortogonal do vetor v = (1, 1, 1) no plano W = h(1, 0, 1), (0, −1, 2)i, usando os
dois métodos descritos na observação 4.3.35.
4.24. Seja V = (1, 1, 0, 1)⊥ em R4 com o produto interno representado em relação à
base canônica por:  
1 1 0 0
−1 1 0 0
A= 0
.
0 2 1
0 0 1 3
Seja W = h(1, 1, −2, 0)i ⊂ V . Calcule uma base de W ⊥V .
4.25. Seja R3 dotado do produto interno que torna a base A = {(1, 0, 1), (1, −1, 1), (0, −2, 2)}
ortonormal. Usando a matriz de mudança de base, estabeleça quais entre as seguintes ba-
ses são ortonormais:
• B1 = {(1,
 √−2, 3), √ −3,
(2,  4), (1,1 −3,3)};
1

• B2 = 2, − 2 , 2 , 0, − √2 , 0 , (0, 2, −2) ;


• B3 = √23 , − 3, √43 , 0, − √12 , 0 , (0, −2, 2) .
  

4.4. Funções lineares ortogonais


Dada uma função linear entre espaços vetoriais euclidianos, vamos introduzir
uma condição natural de compatibilidade entre a função e os produtos internos.
Definição 4.4.1. Sejam V e W espaços vetoriais euclidianos. Uma função linear
f : V → W é dita ortogonal se respeita os produtos escalares de V e W , ou seja, se:
hf (v 1 ), f (v 2 )i = hv 1 , v 2 i ∀v 1 , v 2 ∈ V. ♦
Em princı́pio deverı́amos usar dois sı́mbolos distintos para o produto escalar
em V e o em W , dado que, obviamente, são distintos. Contudo, por simplicidade,
preferimos usar a mesma notação h · , · i.
Observação 4.4.2. Uma função ortogonal é necessariamente injetora, por-
tanto é um isomorfismo com a imagem. De fato, seja v ∈ V . Se v 6= 0, então
hf (v), f (v)i = hv, vi =
6 0, logo f (v) 6= 0. Em particular, se dim V = dim W , então f
é necessariamente um isomorfismo. ♦
Lema 4.4.3. Sejam V e W espaços vetoriais euclidianos e seja f : V → W uma
função linear. Os seguintes fatos são equivalentes:
(1) f é ortogonal;
(2) f respeita as normas, ou seja, kf (v)k = kvk para todo v ∈ V ;
(3) f manda famı́lias ortonormais em famı́lias ortonormais, ou seja, se A =
{a1 , . . . , ak } for uma famı́lia ortonormal de V , então f (A) = {f (a1 ), . . . ,
f (ak )} é uma famı́lia ortonormal de W ;
150 4. PRODUTO INTERNO E ORIENTAÇÃO

(4) existe uma base ortonormal A de V tal que f (A) é uma famı́lia ortonormal
de W ;
(5) f é representada a respeito de uma base ortonormal de V e de uma base
ortonormal de W por uma matriz A tal que AT A = Idim V .
Demonstração. (1) ⇔ (2). Segue imediatamente das fórmulas (78) e (79).
(1) ⇒ (3) Temos que hf (ai ), f (aj )i = hai , aj i = δij , portanto f (A) é uma famı́lia or-
tonormal. (3) ⇒ (4) Óbvio. (4) ⇒ (1). Seja A = {a1 , . . . , an } uma base ortonormal
de V que verifica a hipótese e sejam v 1 , v 2 ∈ V , v 1 = λi ai e v 2 = µj aj . Obviamente
isso implica que f (v 1 ) = λi f (ai ) e f (v 2 ) = µj f (aj ). Pela fórmula (96) temos que
hv 1 , v 2 i = hλ, µi. Por hipótese f (A) = {f (a1 ), . . . , f (an )} é também ortonormal,
logo, aplicando novamente a fórmula (96), temos que hf (v 1 ), f (v 2 )i = hλ, µi. Isso
demonstra que hf (v 1 ), f (v 2 )i = hv 1 , v 2 i. (1) ⇔ (5). Sejam A uma base ortonormal
de V , B uma base ortonormal de W e A = µAB (f ). Dados v 1 = λi ai e v 2 = µj aj
em V , pela fórmula (96) temos que hv 1 , v 2 i = λT µ. Analogamente, pelas fórmulas
(18) e (96), temos que hf (v 1 ), f (v 2 )i = (Aλ)T (Aµ) = λT AT Aµ. Portanto f é orto-
gonal se, e somente se, λT AT Aµ = λT µ para todos λ, µ ∈ Rdim V , o que equivale a
AT A = Idim V . 
Corolário 4.4.4. Seja f : V → W uma função linear, sendo dim V = dim W .
A função f é ortogonal se, e somente se, é representada a respeito de uma base
ortonormal de V e de uma base ortonormal de W por uma matriz ortogonal.
Demonstração. (⇐) Se a matriz representativa A for ortogonal, em particular
T
A A = In , sendo n = dim V , portanto podemos aplicar o item (4) ⇒ (1) do lema
4.4.3. (⇒) Pelo item (1) ⇒ (4) do lema 4.4.3, sabemos que AT A = In . Por isso
(det A)2 = 1, logo det A 6= 0, portanto A é invertı́vel. Multiplicando à direita ambos
os lados de AT A = In por A−1 , obtemos que AT = A−1 (isso implica obviamente
que também AAT = In ). 
Observação 4.4.5. A equivalência (1) ⇔ (5) no lema 4.4.3 é bem clara para
f : Rn → Rm , f (v) = Av. De fato, temos que f é ortogonal se, e somente se:
hAv 1 , Av 2 i = hv 1 , v 2 i ∀v 1 , v 2 ∈ Rn
v T1 AT Av 2 = v T1 v 2 ∀v 1 , v 2 ∈ Rn
AT A = In .
Dessa maneira, para n = m, fica mais fácil lembrar a relação entre matrizes ortogo-
nais e morfismos ortogonais. ♦
Observação 4.4.6. Pela observação 4.3.18, o determinante de uma matriz or-
togonal é ±1. Isso é coerente com o fato que mande uma base ortonormal em uma
base ortonormal. De fato, o módulo do determinante de uma matriz A representa o
hiper-volume do paralelepı́pedo formado pela imagem da base canônica através do
homomorfismo v 7→ Av. Como o volume do paralelepı́pedo formado por uma base
ortonormal é 1, o módulo do determinante de uma transformação ortogonal tem que
ser igual a 1. ♦
4.4. FUNÇÕES LINEARES ORTOGONAIS 151

Sabemos que dois espaços vetoriais reais da mesma dimensão são isomorfos.
Equivalentemente, todo espaço vetorial real de dimensão n é isomorfo a Rn . Vale
um resultado análogo para os espaços vetoriais euclidianos.
Lema 4.4.7. Dados dois espaços vetoriais euclidianos da mesma dimensão V
e W , existe um isomorfismo ortogonal f : V → W . Equivalentemente, todo espaço
vetorial euclidiano de dimensão n é ortogonalmente isomorfo a Rn dotado do produto
interno canônico.
Demonstração. É suficiente fixar uma base ortonormal A de V e uma base
ortonormal B de W e considerar o único isomorfismo tal que f (A) = B. Pelo item
(4) do lema 4.4.3, f é ortogonal. 
4.4.1. Grupo ortogonal. Sejam f : V → W e g : W → Z transformações
ortogonais. É fácil verificar que g ◦ f : V → Z é também ortogonal. De fato, dados
v1, v2 ∈ V :
hg ◦ f (v 1 ), g ◦ f (v 2 )i = hg(f (v 1 )), g(f (v 2 ))i = hf (v 1 ), f (v 2 )i = hv 1 , v 2 i.
Em particular, se V = W = Z, a composição fica bem definida dentro do conjunto
das transformações ortogonais de V a V . Analogamente, se f : V → W for ortogonal,
é fácil verificar que f −1 : W → V o é também. De fato, dados w1 , w2 ∈ W :
hf −1 (w1 ), f −1 (w2 )i = hf (f −1 (w1 )), f (f −1 (w2 ))i = hw1 , w2 i.
Em particular, se V = W , a inversão fica bem definida dentro do conjunto das
transformações ortogonais de V a V . Enfim, é claro que a identidade de V a V é
ortogonal.
Notação 4.4.8. Seja V um espaço vetorial euclidiano. Denotamos por O(V ) o
conjunto das transformações ortogonais de V a V . ♦
Pelas observações precedentes, o conjunto O(V ), dotado da operação de com-
posição, é um grupo. Se denotarmos por GL(V ) o conjunto das transformações
invertı́veis de V em V , temos que O(V ) é um subgrupo de GL(V ). Fixando uma
base ortonormal de V , a matriz representativa µA determina uma bijeção entre O(V )
e O(n), tal que µA (g ◦ f ) = µA (g) · µA (f ). Por isso µA é dito isomorfismo de gru-
pos. O mesmo vale entre GL(V ) e GL(n; R). Afinal, obtemos o seguinte diagrama
comutativo de grupos:
µA
(105) O(V ) / O(n)
_ '  _

 µA

GL(V ) / GL(n; R).
'

4.4.2. Pull-back e push-forward. Vamos mostrar que um isomorfismo entre


espaços vetoriais reais, um dos quais é dotado de um produto interno, induz na-
turalmente um produto interno também no outro espaço. Na verdade, em um dos
dois casos é suficiente considerar uma função linear injetora, mesmo se não for um
isomorfismo, como mostra a seguinte definição.
152 4. PRODUTO INTERNO E ORIENTAÇÃO

Definição 4.4.9. Seja f : V → W um a função linear injetora e seja h · , · i um


produto interno em W . O produto interno pull-back em V através de f é definido
por:
hhv 1 , v 2 ii := hf (v 1 ), f (v 2 )i.
Usamos a notação hh · , · ii = f ∗ h · , · i. ♦
O leitor pode verificar que as três propriedades fundamentais do produto interno
são verificadas. Observamos que o produto pull-back é o único em V que torna
f ortogonal.8 Equivalentemente, se V e W forem espaços vetoriais euclidianos e
f : V → W for uma função ortogonal, então o produto interno de V é o pull-back do
de W através de f . Por isso podemos reformular o lema 4.4.7 da seguinte maneira.
Lema 4.4.10. Dados dois espaços vetoriais euclidianos da mesma dimensão (V,
hh · , · ii) e (W, h · , · i), existe um isomorfismo f : V → W tal que hh · , · ii = f ∗ h · , · i.
Equivalentemente, todo produto interno em um espaço vetorial real V de dimensão
n é o pull-back do canônico de Rn através de um isomorfismo f : V → Rn .
Corolário 4.4.11. Dados dois produtos internos h · , · i e hh · , · ii em V , existe
um automorfismo f : V → V tal que hh · , · ii = f ∗ h · , · i.
Observação 4.4.12. Conforme a observação 4.2.11, se V for um espaço vetorial
euclidiano e W ⊂ V um subespaço vetorial, o produto escalar de V se restringe a
W , tornando também W euclidiano de modo canônico. Esta restrição é o pull-back
através da inclusão i : W ,→ V . ♦
Por enquanto supusemos que o contra-domı́nio fosse dotado de um produto in-
terno e definimos o pull-back. Podemos atuar também no sentido oposto, desde que
f seja sobrejetora.
Definição 4.4.13. Seja f : V → W um isomorfismo de espaços vetoriais reais
e seja h · , · i um produto interno em V . O produto interno push-forward em W
através de f é definido por:
hhw1 , w2 ii := hf −1 (w1 ), f −1 (w2 )i.
Usamos a notação hh · , · ii = f∗ h · , · i. ♦
É evidente que f∗ h · , · i = (f −1 )∗ h · , · i e vice-versa.
Observação 4.4.14. Podemos reler a fórmula (84) de moto ativo, ou seja, pen-
sando em uma transformação linear (que mexe os vetores) ao invés de desenvolver os
vetores em relação a uma base fixada (sem mexer os vetores). Em particular, a base
A fixada em V determina o único isomorfismo f : V → Rn que manda A na base
canônica. Temos que f (v) = λ e f (w) = µ. Sejam hh · , · ii o produto interno em V e
h · , · i o produto interno em Rn representado por ν(A) em relação à base canônica.
A fórmula (84) equivale ao fato que hh · , · ii = f ∗ h · , · i. Se A for ortonormal, então
h · , · i é o produto interno canônico, portanto obtemos o lema 4.4.7. ♦
8Nadefinição 4.4.1 usamos o mesmo sı́mbolo h · , · i para o produto escalar em V e o em W .
Nesta seção preferimos usar sı́mbolos diferentes para que faça sentido escrever hh · , · ii = f ∗ h · , · i,
mas é a mesma situação.
4.4. FUNÇÕES LINEARES ORTOGONAIS 153

4.4.3. Reflexões. Uma famı́lia particularmente significativa de transformações


ortogonais de um espaço em si mesmo é constituı́da pelas reflexões.
Definição 4.4.15. Seja V um espaço vetorial euclidiano. Dado um subespaço
vetorial W ⊂ V , como V = W ⊕ W ⊥ , todo vetor v ∈ V se escreve de modo único
na forma v = w + w0 , sendo w ∈ W e w0 ∈ W ⊥ . A reflexão em relação a W em V
é a seguinte função linear:
rW : V → V
w + w0 7→ w − w0 . ♦
2
Obviamente rW = id. É fácil verificar que rW é uma função ortogonal, pois, se
v 1 = w1 + w1 e v 2 = w2 + w02 temos que:
0

hrW (v 1 ), rW (v 2 )i = hw1 − w01 , w2 − w02 i = hw1 , w2 i + hw01 , w02 i


= hw1 + w01 , w2 + w02 i = hv 1 , v 2 i.
Equivalentemente, podemos observar que, fixada uma base ortonormal A = {a1 , . . . ,
ak , ak+1 , . . . , an } de V , tal que {a1 , . . . , ak } é uma base de W e {ak+1 , . . . , an } é uma
base de de W ⊥ , temos:  
Ik 0
µA (rW ) = ,
0 −In−k
a qual é uma matriz ortogonal, sendo AT A = A2 = In .
Se W for um hiperplano de V (ou seja, dim W = dim V − 1), então W ⊥ é uma
reta, portanto podemos imaginar facilmente a ação de rW , que reflete um único
gerador fixado de W ⊥ e fixa todas as direções ortogonais a este gerador (isto é, fixa
W ).
Notação 4.4.16. Dado v ∈ V , denotamos por rv a reflexão em relação ao
hiperplano v ⊥ , ou seja, rv := rv⊥ . ♦
Na verdade, é fácil dar-se conta que qualquer reflexão pode ser escrita como a
composição de reflexões em relação a hiperplanos. De fato, fixando novamente uma
base ortonormal A = {a1 , . . . , ak , ak+1 , . . . , an } de V , tal que {a1 , . . . , ak } é uma
base de W e {ak+1 , . . . , an } é uma base de de W ⊥ , temos que:
rW = rak+1 ◦ · · · ◦ ran .
Para verificar esta identidade, é suficiente observar que a composição rak+1 ◦ · · · ◦ ran
fixa os vetores a1 , . . . , ak e multiplica por −1 os vetores ak+1 , . . . , an , logo coincide
com rW . Isso mostra que é suficiente considerar reflexões em relação a hiperplanos
para esgotar todas as reflexões. O seguinte teorema mostra que vale um resultado
bem mais forte.
Teorema 4.4.17. Seja V um espaço vetorial euclidiano de dimensão n. Toda
transformação ortogonal de V coincide com a composição de k reflexões em relação
a hiperplanos, sendo 0 ≤ k ≤ n.9
9A composição de 0 reflexões é a identidade.
154 4. PRODUTO INTERNO E ORIENTAÇÃO

Demonstração. Vamos demonstrar o resultado por indução. Para n = 1 a tese


é óbvia, pois as únicas transformações ortogonais de uma reta em si mesma são a
identidade e a reflexão x 7→ −x em relação à origem, a qual é um hiperplano da reta.
Suponhamos que o resultado valha para n − 1 e consideremos uma transformação
ortogonal f : V → V . Se f = id o resultado é óbvio; em caso contrário, existe um
vetor v ∈ V tal que f (v) 6= v.

f (v)

u0

1
v − f (v) e u0 = 1
 
Consideremos os vetores u = 2 2
v + f (v) . Temos que:
hu, u0 i = 14 hv, vi − 41 hf (v), f (v)i = 0,
portanto u⊥u0 e, por construção, u 6= 0. Isso implica que Ru (u0 ) = u0 , portanto,
como v = u0 + u e f (v) = u0 − u, temos que:
(ru ◦ f )(v) = ru (f (v)) = ru (u0 − u) = u0 + u = v.
Por isso, ru ◦ f fixa v. A partir disso é fácil mostrar que ru ◦ f manda o hiperplano
v ⊥ em si mesmo. De fato, se hw, vi = 0, então:
h(ru ◦ f )(w), vi = h(ru ◦ f )(w), (ru ◦ f )(v)i = hw, vi = 0.
Logo fica bem definida a função ortogonal ru ◦ f |v⊥ : v ⊥ → v ⊥ . Como dim(v ⊥ ) =
n − 1, pela hipótese de indução temos que
(106) ru ◦ f |v⊥ = rvk−1 ◦ · · · ◦ rv1 ,
sendo k ≤ n. As reflexões rvi , extensas a V todo, fixam v (dado que v i ∈ v ⊥ ).
Também ru ◦ f fixa v, portanto a identidade (106) vale também tirando a restrição
a v ⊥ , ou seja, ru ◦ f = rvk−1 ◦ · · · ◦ rv1 , logo f = ru ◦ rvk−1 ◦ · · · ◦ rv1 . 
No capı́tulo 7 mostraremos uma versão bem mais refinada do teorema 4.4.17,
que mostrará em detalhe a estrutura geométrica de uma transformação ortogonal.
4.4.4. Exercı́cios.
4.26. Determine todas as transformações ortogonais de R2 a R2 com o produto interno
canônico.
4.27. Construa um automorfismo ortogonal f : R3 → R3 , com o produto interno
canônico, tal que f (1, 0, 1) = (0, 1, 1).
4.4. FUNÇÕES LINEARES ORTOGONAIS 155

4.28. Seja A ∈ GL(n; R) uma matriz simétrica definida positiva. Seja OA (n) ⊂
GL(n; R) o subgrupo formado pelas matrizes C tais que a função linear v 7→ Cv é or-
togonal a respeito do produto interno hv, wi := v T Aw em Rn .
(1) Verifique que OA (n) é efetivamente um subgrupo de GL(n; R).
(2) Se A = In , temos que OIn (n) = O(n), logo C ∈ OIn (n) se, e somente se,
C T C = In . Ache uma fórmula que caracteriza as matrizes pertencentes a OA (n)
para A genérica (simétrica e definida positiva).
(3) Demonstre que OA (n) ' O(n) para toda A, achando um isomorfismo explı́cito.
(4) Em geral, sejam V um espaço vetorial euclidiano e A uma base de V , não ne-
cessariamente ortonormal. Sejam A = ν(A), f : V → V e C = µA (f ). Verifique
que f é ortogonal se, e somente se, C ∈ OA (n).
4.29. Seja V um espaço vetorial euclidiano e seja B0 o conjunto das bases ordenadas de
V . Seja ‘∼ν ’ a relação de equivalência em B0 tal que A ∼ν B se, e somente se, ν(A) = ν(B).
Verifique que as seguintes condições são equivalentes:
(1) A ∼ν B, sendo ν(A) = ν(B) = A;
(2) µ(A, B) ∈ OA (n);
(3) existem duas bases ortonormais O e O0 tais que µ(O, A) = µ(O0 , B).
Observamos que a relação ‘∼ν ’ pode ser aplicada a famı́lias ordenadas quaisquer, mesmo
que não sejam bases; neste caso os itens precedentes não são equivalentes.
Observação: Seja V um espaço vetorial real e seja B0 o conjunto das bases ordenadas
de V . Podemos definir a relação (101). Escolhendo uma classe de equivalência, obtemos
um produto interno em V , portanto podemos definir também a relação ∼ν considerada
no exercı́cio 4.29.
B0 / ∼O B0 / ∼ν

As bases na classe selecionada (azul) são representadas pela matriz idêntica. Em geral,
em cada classe de ∼ν (amarela) temos que ν(A) = A, sendo A fixada. Do ponto de vista
passivo, A ∼ν B se, e somente se, µ(A, B) ∈ OA (n); isso equivale à relação A = C T AC,
sendo C := µ(A, B). Do ponto de vista ativo, o isomorfismo que manda A em B é ortogonal
se, e somente se, µA (f ) ∈ OA (n). Em particular, para A = In , obtemos o lema 4.3.19 e
o corolário 4.4.4; neste caso podemos ignorar a ordem dos elementos de uma base, dado
que mudar a ordem equivale a mudar de base através de uma matriz ortogonal, portamos
ficamos na mesma classe de equivalência. Em geral a ordem é significativa. ♦
4.30. Generalize o lema 4.4.3 da seguinte maneira. Sejam V e W espaços vetoriais
euclidianos e seja f : V → W uma função linear. Os seguintes fatos são equivalentes:
(1) f é ortogonal;
(2) f respeita as normas;
(3) se A ⊂ V for uma famı́lia ordenada não vazia, então ν(A) = ν(f (A));
(4) existe uma base ordenada A de V tal que ν(A) = ν(f (A));
(5) f é representada a respeito de uma base ordenada A de V e de uma base ordenada
B de W por uma matriz C tal que C T · ν(B) · C = ν(A).
156 4. PRODUTO INTERNO E ORIENTAÇÃO

4.31. Seja R2 dotado do produto interno h(x1 , y1 ), (x2 , y2 )i = 2x1 x2 +y1 y2 +x1 y2 +x2 y1 .
(1) Construa uma função ortogonal f : R2 → R2 tal que f (1, 0) = √210 , √210 .


(2) Seja C ∈ GL(2; R) a matriz representativa de f em relação à base canônica.


Conforme a notação do exercı́cio 4.28, verifique explicitamente que C ∈ OA (2),
sendo A a matriz que representa o produto interno fixado a respeito da base
canônica.
4.32. Sejam V e W espaços vetoriais euclidianos (de dimensão finita) e seja f : V → W
uma função, não necessariamente linear, que mantém o produto interno, ou seja, tal que
hf (v 1 ), f (v 2 )i = hv 1 , v 2 i para todos v 1 , v 2 ∈ V . Demonstre que f é linear, logo é ortogonal
por definição.
4.33. Sejam V e W espaços vetoriais reais normados (de dimensão finita) e seja f : V →
W uma função, não necessariamente linear, que mantém a norma, ou seja, tal que kf (v)k =
kvk para todo v ∈ V . Mostre com um exemplo que f pode não ser linear (nem afim,
obviamente), mesmo se a norma for induzida por um produto interno.
4.34. Sejam V e W espaços vetoriais euclidianos (de dimensão finita) e seja f : V →
W uma função, não necessariamente linear, que mantém a distância, ou seja, tal que
d(f (v 1 ), f (v 2 )) = d(v 1 , v 2 ) para todos v 1 , v 2 ∈ V , sendo d a distância induzida pela norma,
a qual é induzida pelo produto interno. Demonstre que f é uma função afim da forma
f (v) = w0 + g(v), sendo g uma função (linear) ortogonal. [Sugestão: Sejam w0 := f (0)
e g(v) := f (v) − w0 . Então g mantém a distância e g(0) = 0. Use a fórmula (79) para
verificar que g mantém o produto interno e aplique o exercı́cio 4.32.]
Observação: Não há nenhuma contradição entre o exercı́cio 4.33 e o 4.34 no caso em
que as normas sejam induzidas por um produto interno. De fato, uma função não linear
que mantém a norma pode não manter a distância, pois manter a norma implica que
kf (v − w)k = kv − wk, mas em geral f (v − w) 6= f (v) − f (w). ♦
4.35. Sejam V e W espaços vetoriais reais normados (de dimensão finita) e seja f : V →
W uma função, não necessariamente linear, que mantém a distância, ou seja, tal que
d(f (v 1 ), f (v 2 )) = d(v 1 , v 2 ) para todos v 1 , v 2 ∈ V , sendo d a distância induzida pela norma.
Mostre com um exemplo que f pode não ser afim. [Sugestão: Fixe uma função lipschitziana
g : R → R, com constante de Lipschitz menor ou igual a 1, e construa um contra-exemplo
f : R → R2 a partir de g, dotando R2 da norma k(x, y)k∞ := max{|x|, |y|}.]
Observação: No exercı́cio 4.35, se f for também sobrejetora (equivalentemente, se a
imagem de f for um subespaço afim de W ), então é necessariamente uma função afim.
Trata-se do teorema de Mazur-Ulam, válido também em dimensão infinita. ♦

4.5. Funções lineares simétricas e antissimétricas


Vamos definir o adjunto de um homomorfismo. Para isso, precisamos do seguinte
lema.
Lema 4.5.1. Seja V um espaço vetorial euclidiano e sejam v, v 0 ∈ V tais que
hv, wi = hv 0 , wi para todo w ∈ V . Então v = v 0 .
Demonstração. Temos que hv − v 0 , wi = 0 para todo w ∈ V , logo, em parti-
cular, hv − v 0 , v − v 0 i = 0, portanto v − v 0 = 0. 
4.5. FUNÇÕES LINEARES SIMÉTRICAS E ANTISSIMÉTRICAS 157

Definição 4.5.2. Sejam V e W espaços vetoriais euclidianos e seja f : V → W


uma função linear. O homomorfismo adjunto de f , denotado por f ∗ : W → V , é
definido por:
(107) hf (v), wi = hv, f ∗ (w)i ∀v ∈ V, w ∈ W. ♦
Mostremos que, dada f , a adjunta f ∗ está bem definida. Antes de tudo, se existir
uma função f ∗ que satisfaz (107), é única. De fato, sejam f ∗ e f1∗ duas adjuntas de
f . Então, fixado w ∈ V , temos que hv, f ∗ (w)i = hv, f1∗ (w)i para todo v ∈ V , pois os
dois coincidem com hf (v), wi. Pelo lema 4.5.1, f ∗ (w) = f1∗ (w), logo, como isso vale
para todo w ∈ W , concluı́mos que f ∗ = f1∗ . O seguinte lema completa a construção
de f ∗ .
Lema 4.5.3. Com as mesmas notações da definição 4.5.2, sejam A = {a1 , . . . ,
an } uma base ortonormal de V e B = {b1 , . . . , bm } uma base ortonormal de W .
Então f ∗ é a função linear tal que:
µBA (f ∗ ) = (µAB f )T .
Demonstração. Sejam A = µAB (f ) e B = µAB (f ∗ ). Dados v = λ1 a1 + · · · +
λn an e w = µ1 b1 + · · · + µm bm , pelas fórmulas (18) e (76), temos que hf (v), wi =
(Aλ)T µ = λT AT µ e hv, f ∗ (w)i = λT Bµ. Logo, f ∗ é a adjunta de f se, e somente se,
B = AT 
Observamos que, na definição 4.5.2, não é necessário pedir que f ∗ seja linear,
pois segue da construção precedente. De fato, na demonstração da unicidade não
usamos a linearidade de f ∗ , portanto qualquer função que verifica (107) coincide
com a única adjunta de f , a qual é linear pelo lema 4.5.3. Na verdade, sabendo que
f ∗ é única, pode-se deduzir facilmente a linearidade a partir da fórmula (107).
Definição 4.5.4. Seja V um espaço vetorial euclidiano. Um endomorfismo
f : V → V é dito simétrico ou auto-adjunto se f = f ∗ , ou seja, se:
hf (v 1 ), v 2 i = hv 1 , f (v 2 )i ∀v 1 , v 2 ∈ V.
Analogamente, f é dito antissimétrico ou anti-auto-adjunto se f = −f ∗ , ou seja, se:
hf (v 1 ), v 2 i = −hv 1 , f (v 2 )i ∀v 1 , v 2 ∈ V. ♦
É necessário que o domı́nio e contra-domı́nio de f coincidam para que as de-
finições precedentes façam sentido.
Observação 4.5.5. Se f for antissimétrico, temos que:
hf (v), vi = 0
para todo v ∈ V . De fato, hf (v), vi = −hv, f (v)i, logo 2hf (v), vi = 0. ♦
Lembramos que uma matriz A ∈ M (n; R) é dita simétrica se A = AT e antis-
simétrica se A = −AT .
Lema 4.5.6. Um endomorfismo f : V → V é (antis)simétrico se, e somente
se, é representado a respeito de uma base ortonormal de V por uma matriz (an-
tis)simétrica.
158 4. PRODUTO INTERNO E ORIENTAÇÃO

Demonstração. É consequência imediata do lema 4.5.3. 


Observação 4.5.7. De novo o lema precedente é bem claro para f : Rn → Rn ,
v 7→ Av. De fato, temos que f é simétrica se, e somente se:
hAv 1 , v 2 i = hv 1 , Av 2 i ∀v 1 , v 2 ∈ Rn
v T1 AT v 2 = v T1 Av 2 ∀v 1 , v 2 ∈ Rn
AT = A.
O mesmo vale para f antissimétrica, acrescentando o sinal negativo. ♦
4.5.1. Estrutura de espaço vetorial. Sejam f, g : V → V transformações
(antis)simétricas. É fácil verificar que λf + µg é também (antis)simétrica para
todos λ, µ ∈ R. De fato, dados v 1 , v 2 ∈ V , temos que:
h(λf + µg)(v 1 ), v 2 i = hλf (v 1 ) + µg(v 1 ), v 2 i = λhf (v 1 ), v 2 i + µhg(v 1 ), v 2 i
= ±λhv 1 , f (v 2 )i ± µhv 1 , g(v 2 )i = ±hv 1 , λf (v 2 ) ± µg(v 2 )i = ±hv 1 , (λf + µg)(v 2 )i.
Notação 4.5.8. Seja V um espaço vetorial euclidiano. Denotamos por S(V ) e
A(V ) os conjuntos das transformações respetivamente simétricas a antissimétricas de
V a V . Denotamos por S(n; R) e A(n; R) os conjuntos das matrizes respetivamente
simétricas a antissimétricas reais de ordem n. ♦
Pela observação precedente, os conjuntos S(V ) e A(V ) são subespaços vetori-
ais de End(V ), sendo End(V ) o espaço dos endomorfismos de V . Fixando uma
base ortonormal de V , a matriz representativa µA determina dois isomorfismos de
espaços vetoriais µA : S(V ) → S(n; R) e µA : A(V ) → A(n; R). Por isso, obtemos os
seguintes diagramas comutativos de espaços vetoriais reais:
µA µA
(108) S(V ) / S(n; R) A(V ) / A(n; R)
_ ' _ _ ' _

 µA
  µA

End(V ) / M (n; R) End(V ) / M (n; R).
' '

Observação 4.5.9. Vimos que as transformações ortogonais formam um grupo


com a operação de composição, enquanto as transformações (antis)simétricas for-
mam um espaço vetorial com as operações de soma e produto externo. Em geral
uma combinação linear de transformações ortogonais não é ortogonal, tão como a
composição de duas transformações (antis)simétricas não é (antis)simétrica.10 ♦
Observação 4.5.10. Temos as seguintes cisões:
M (n; R) = S(n; R) ⊕ A(n; R) End(V ) = S(V ) ⊕ A(V ).
De fato, é imediato verificar que S(n; R) ∩ A(n; R) = {0}. Ademais, para toda
A ∈ M (n; R) temos que A = 21 (A + AT ) + 12 (A − AT ), sendo 21 (A + AT ) ∈ S(n; R) e
10Para o leitor mais experiente, lembramos que há uma relação muito forte entre as trans-
formações ortogonais e as antissimétricas, pois O(n) é um grupo de Lie cuja álgebra de Lie é
precisamente A(n; R), com o colchete de Lie [A, B] := AB − BA.
4.5. FUNÇÕES LINEARES SIMÉTRICAS E ANTISSIMÉTRICAS 159

1
2
(A− AT ) ∈ A(n; R). A cisão correspondente de End(V ) segue da comutatividade
do diagrama (108) ou de uma demonstração análoga. ♦
4.5.2. Reflexões. Uma reflexão é também uma transformação simétrica. De
fato, dados um espaço vetorial euclidiano V , um sub-espaço vetorial W ⊂ V e dois
vetores v 1 = w1 + w01 e v 2 = w2 + w02 , sendo w1 , w2 ∈ W e w01 , w02 ∈ W ⊥ , temos que:
hrW (v 1 ), v 2 i = hw1 − w01 , w2 + w02 i = hw1 , w2 i + hw01 , w02 i
= hw1 + w01 , w2 − w02 i = hv 1 , rW (v 2 )i.
O teorema 4.4.17 afirma que O(V ), como grupo, é gerado pelas reflexões em relação
a hiperplanos. O seguinte teorema mostra que S(V ), como espaço vetorial real, é
também gerado pelas reflexões em relação a hiperplanos.
Teorema 4.5.11. Seja V um espaço vetorial euclidiano de dimensão n. O
espaço vetorial S(V ) admite uma base formada por n reflexões em relação a hi-
perplanos.
Demonstração. Chamamos de Eij a matriz cuja entrada (i, j) é 1 e cujas
outras entradas são todas nulas. Obviamente {Eij }1≤i,j≤n é uma base de M (n; R).
Consideremos o sub-espaço vetorial S(n; R). Uma base desse subespaço é a famı́lia
A = {D1 , . . . , Dn } ∪ {Sij }1≤i<j≤n formada pelas seguintes matrizes:
• D1 = E11 , . . ., Dn = Enn , que são diagonais;
• Sij = Eij + Eji para i < j.
Em total temos 21 n(n + 1) elementos da base. Por exemplo:
1 0 ··· 0 0 1 ··· 0
   
0 0 · · · 0 1 0 · · · 0
D1 =  . .
 .. .. . 
..  S12 = . .
 .. .. .. 
.
0 0 ··· 0 0 0 ··· 0
Vamos mostrar que também a famı́lia B = {In , D10 , . . . , Dn−1
0
∪ {Sij0 }1≤i<j≤n , for-
}
mada pelas seguintes matrizes, é uma base de S(n; R):
0
• In = D1 + · · · + Dn , D10 := −D1 + D2 + · · · + Dn , . . ., Dn−1 := D1 + · · · −
Dn−1 + Dn ;P
• Sij0 = Sij + k6=i,j Dk para i < j.
Por exemplo:
−1 0 0 · · · 0 0 1 0 ··· 0
   
 0 1 0 · · · 0 1 0 0 · · · 0
0 0 0 1 · · · 0 0 0 0 1 · · · 0 .
   
D1 =  . . . S12 =
 .. .. .. ..  . . .
 .. .. .. .. 
. .
0 0 0 ··· 1 0 0 0 ··· 1
Estas matrizes representam reflexões em relação a hiperplanos de Rn . De fato, Di0
representa a reflexão em relação ao hiperplano e⊥ 0
i e Sij representa a reflexão em
relação ao hiperplano (ei − ej )⊥ . O número de elementos de B é 21 n(n + 1), portanto
é suficiente mostrar que B gera S(n; R) para concluir que é uma base. Para verificar
160 4. PRODUTO INTERNO E ORIENTAÇÃO

isso, vamos mostrar que todo elemento da base A é combinação linear de B. Temos
que:
• Di = 21 (In − Di0 ) para 1 ≤ i ≤ n − 1:
• Dn = In − D1 − · · · − Dn−1 = In − 21 n−1 0
P
k=1 (In − Dk );
• Sij = Sij0 − k6=i,j Dk = Sij0 − 2 k6=i,j (In − Dk0 ).
1
P P

Dado um espaço vetorial euclidiano V de dimensão n, fixamos uma base ortonormal


A0 de V e escolhemos as reflexões representadas, a respeito de A0 , pelos elementos
da base B de S(n; R). Essas reflexões geram S(V ), pois µA0 : S(V ) → S(n; R) é um
isomorfismo. 

Destacamos que há uma diferença importante entre os teoremas 4.4.17 e 4.5.11.
De fato, no caso de S(V ), sendo dim V = n, conseguimos achar 21 n(n + 1) reflexões
fixadas que formam uma base de S(V ), enquanto, no caso de O(V ), para cada
função f fixada conseguimos achar k reflexões que a geram, sendo k ≤ n, mas essas
reflexões dependem de f .

4.5.3. Exercı́cios.

4.36. Seja f : R4 → R3 , (x, y, z, w) 7→ (x − y, y − z, z − w). Calcule a adjunta f ∗ a


respeito do produto interno canônico.

4.37. Ache um endomorfismo simétrico f : R3 → R3 , sendo R3 dotado do produto


interno canônico, tal que f (1, 2, 1) = (2, 3, 0) e f (1, 1, 1) = (2, 1, 1).

4.38. Sejam V e W espaços vetoriais euclidianos, A = {a1 , . . . , an } uma base ordenada


de V , B = {b1 , . . . , bm } uma base ordenada de W e f : V → W uma função linear.
(1) Demonstre que f ∗ : W → V é a única função linear tal que hf (ai ), bj i = hai , f ∗ (bj )i
para todos i e j.
(2) Generalize o lema 4.5.3 da seguinte maneira: µAB (f )T · ν(B) = ν(A) · µBA (f ∗ ).

4.39. Seja f : R2 → R2 , (x, y) 7→ (2x, x), sendo o domı́nio dotado do produto interno
h(x1 , y1 ), (x2 , y2 )i = 2x1 x2 +y1 y2 +x1 y2 +x2 y1 e sendo o contra-domı́nio dotado do produto
interno h(x1 , y1 ), (x2 , y2 )i = 2x1 x2 + y1 y2 − x1 y2 − x2 y1 . Calcule a adjunta f ∗ .

4.40. Seja A ∈ GL(n; R) uma matriz simétrica definida positiva. Seja SA (n) ⊂
M (n; R) o subespaço vetorial formado pelas matrizes C tais que a função linear v 7→ Cv
é simétrica a respeito do produto interno hv, wi := v T Aw em Rn .
(1) Verifique que SA (n) é efetivamente um subespaço vetorial de M (n; R).
(2) Se A = In , temos que SIn (n) = S(n), logo C ∈ SIn (n) se, e somente se, C = C T .
Ache uma fórmula que caracteriza as matrizes pertentes a SA (n) para A genérica
(simétrica e definida positiva).
(3) Demonstre que SA (n) ' S(n) para toda A, achando um isomorfismo explı́cito.
(4) Generalize o lema 4.5.6 da seguinte maneira. Sejam V um espaço vetorial eucli-
diano e A uma base de V , não necessariamente ortonormal. Sejam A = ν(A),
f : V → V e C = µA (f ). Verifique que f é simétrica se, e somente se, C ∈ SA (n).
Demonstre os enunciados análogos em relação às funções antissimétricas.
4.6. ORIENTAÇÃO E ROTAÇÕES 161

4.6. Orientação e rotações


No vol. I introduzimos o conceito de orientação de um espaço vetorial real V
de dimensão n ≥ 1. Vamos repetir brevemente a definição, acrescentando algumas
informações sobre a relação entre funções lineares e orientação.
4.6.1. Definição de orientação. Consideremos duas bases ordenadas A e B
de V . A matriz de mudança de base µ(A, B) é invertı́vel, portanto tem determinante
não nulo. Seja BV o conjunto das bases ordenadas de V . Vamos introduzir a seguinte
relação de equivalência em BV :
(109) A ∼ B ⇔ det µ(A, B) > 0.
É imediato verificar que se trata efetivamente de uma relação de equivalência. De
fato:
• det µ(A, A) = det In = 1 > 0, logo A ∼ A;
1
• se A ∼ B, então det µ(B, A) = det µ(A,B) > 0, logo B ∼ A;
• se A ∼ B e B ∼ C, então det µ(A, C) = det µ(A, B) det µ(B, C) > 0, logo
A ∼ C.
Ademais, BV fica dividido em duas classes de equivalência. De fato, sejam A =
{a1 , . . . , an } uma base ordenada de V e A0 = {−a1 , a2 , . . . , an }. É claro que µ(A, A0 )
é a matriz diagonal com entradas (−1, 1, . . . , 1), logo det µ(A, A0 ) = −1 < 0. Isso
mostra que existem pelo menos duas classes de equivalência. Seja B outra base orde-
nada e mostremos que B ∼ A ou B ∼ A0 . De fato, se B  A, então det µ(A, B) < 0,
portanto det µ(A0 , B) = det µ(A0 , A) det µ(A, B) > 0, logo B ∼ A0 . Isso implica que
[A] e [A0 ] são as únicas duas classes de equivalência.
Definição 4.6.1. Uma orientação de V é a escolha de uma das duas classes de
equivalência em BV . Um espaço vetorial orientado é um espaço vetorial com uma
orientação fixada. ♦
Às vezes denotaremos por O uma orientação de V , portanto um espaço vetorial
orientado é um par (V, O). A orientação oposta será denotada por −O, isto é,
−O := BV \ O.
Observação 4.6.2. Se V = Rn , há uma orientação canônica, ou seja, a classe
de equivalência da base canônica. ♦
Fixada uma orientação O, chamamos de positivamente orientada uma base or-
denada que pertence a O e de negativamente orientada uma base ordenada que
pertence a BV \ O. Queremos deixar claro que, dada uma base ordenada A de V ,
não faz sentido dizer em absoluto se A for positivamente ou negativamente orien-
tada: antes temos que fixar uma orientação O; em seguida, podemos estabelecer se
A ∈ O ou A ∈ −O.11 Pelo contrário, o fato que duas bases ordenadas A e B de
V representem a mesma orientação é intrı́nseco a V , pois só depende da matriz de
mudança de base µ(A, B). Enfim, observamos que, para fixar concretamente uma
11Só no caso de Rn , quando for claro pelo contexto, podemos subentender de ter fixado a
orientação canônica, mas, mesmo neste caso, poderı́amos escolher a outra.
162 4. PRODUTO INTERNO E ORIENTAÇÃO

orientação, podemos mostrar uma base ordenada A que declaramos ser positiva-
mente orientada; fica subentendido que a classe escolhida é a que contém A.
4.6.2. Orientação e ângulos. Uma orientação em um plano euclidiano per-
mite fixar o ângulo entre um par ordenado de vetores não nulos, conforme a seguinte
definição.
Definição 4.6.3. Sejam V um espaço vetorial euclidiano orientado de dimensão
2 e A = {v, w} uma base ordenada de V . Se A for positivamente orientada, estabe-
lecemos que o ângulo de v a w está incluso entre 0 e π, em caso contrário entre π e
2π (equivalentemente, entre −π e 0). ♦
Observação 4.6.4. Segue imediatamente da definição 4.6.3 que, se o ângulo de
v a w for θ, então o ângulo de w a v é −θ. ♦
Intuitivamente, fixar uma orientação em um plano equivale a fixar um sentido
para as rotações. Para formalizar esta noção deverı́amos mostrar como orientar o
grupo das rotações de V (o qual ainda tem que ser definido), mas isso vai além
dos objetivos deste curso. Em todo caso, a ideia intuitiva é suficiente. Na seguinte
figura, orientar positivamente a base {v, w} equivale a escolher o sentido azul de
rotação e vice-versa. O ângulo θ é fixado de modo que 0 < θ < π.

w w

θ θ
v v
2π − θ 2π − θ

Para V = R2 , chamamos de anti-horário o sentido de rotação determinado pela


base canônica e de horário o oposto. Esta distinção intrı́nseca não faz sentido para
um espaço genérico V .
Observação 4.6.5. Em um espaço vetorial euclidiano de dimensão genérica,
para fixar o ângulo entre dois vetores independentes é necessário orientar o plano
que geram, não sendo suficiente nem necessário orientar o espaço todo. ♦
4.6.3. Orientação e topologia. Para o leitor que tenha estudado as noções
fundamentais de topologia geral, observamos que as duas orientações de um espaço
vetorial V correspondem às duas componentes conexas de BV , conforme a seguinte
topologia natural. Fixada uma base ordenada A ∈ BV , a matriz de mudança de
base determina a bijeção µ : BV → GL(n; R), B 7→ µ(A, B), sendo n = dim V .
Compondo µ com a inclusão GL(n; R) ⊂ M (n; R) e o isomorfismo de espaços veto-
2 2 2
riais M (n; R) ' Rn , obtemos a inclusão µ0 : BV ,→ Rn . Dado que Rn é dotado
da topologia euclidiana, fica induzida por restrição uma topologia em BV , que não
4.6. ORIENTAÇÃO E ROTAÇÕES 163

depende da base A fixada inicialmente. A respeito desta topologia, BV é formado


por duas componentes conexas (por caminhos), que são precisamente as duas ori-
entações de V . Isso significa que duas bases ordenadas A e B representam a mesma
orientação se, e somente se, existe um caminho contı́nuo γ : [0, 1] → BV tal que
γ(0) = A e γ(1) = B. Pelo contrário, se A e B representarem orientações opostas,
então qualquer caminho que une A e B deve necessariamente passar por uma famı́lia
dependente, portanto não pode estar contido em BV . O leitor pode tentar visualizar
esta interpretação topológica da orientação no caso de uma reta, de um plano e de
um espaço tridimensional.

4.6.4. Orientação induzida. Seja V um espaço vetorial e sejam W, W 0 ⊂ V


dois subespaços vetoriais tais que V = W ⊕ W 0 . A seguinte definição mostra que,
orientando dois espaços entre V , W e W 0 , o terceiro herda canonicamente uma
orientação.

Definição 4.6.6. Seja V = W ⊕ W 0 e suponhamos que dois espaços entre V ,


W e W 0 sejam orientados. A orientação induzida no terceiro espaço está definida
da seguinte maneira. Sejam A = {w1 , . . . , wk } uma base ordenada de W e A0 =
{wk+1 , . . . , wn } uma base ordenada de W 0 . Consideremos as três bases ordenadas A,
A0 e AtA0 , respetivamente de W , W 0 e V . Se duas destas bases forem positivamente
orientadas, declaramos a terceira também positivamente orientada. ♦

A definição precedente é bem posta, ou seja, não depende dos representantes A


e A0 fixados. De fato, suponhamos de escolher outros representantes B e B 0 . Temos
que det µ(A t A0 , B t B 0 ) = det µ(A, A0 ) · det µ(B, B 0 ), portanto, como dois entre os
três determinantes são positivos, o terceiro o é também, logo a orientação induzida
não muda.

Observação 4.6.7. Suponhamos que um dos espaços V , W e W 0 seja dotado


da orientação induzida pelos dois demais. Então isso vale para cada um dos três. ♦

Observação 4.6.8. A noção de orientação induzida se aplica em particular


quando V for um espaço vetorial euclidiano e W 0 = W ⊥ . ♦

Suponhamos que V seja orientado. Aplicando a definição 4.6.6, orientar um


subespaço W de V é equivalente a orientar um subespaço complementar W 0 . Em
particular, consideremos o caso em que W é um hiperplano em V , ou seja, dim W 0 =
1 (como exemplo padrão, podemos supor que V = R3 e que W seja um plano).
Fixada a orientação de V , orientar o hiperplano W equivale a fixar um vetor não nulo
pertencente a W 0 , que declaramos ser positivamente orientado. Isso equivale a fixar
um sentido positivo em uma direção transversal ao plano. Intuitivamente, podemos
imaginar o hiperplano como formado por duas faces e escolher uma que declaramos
positiva (como escolher uma das duas faces de uma moeda). Contudo, as duas
faces coincidem, portanto se trata só de uma imagem imprecisa. Mais formalmente,
escolher uma face significa marcar uma das duas componentes de V \ W , ou seja, a
que contém um vetor positivamente orientado de W 0 .
164 4. PRODUTO INTERNO E ORIENTAÇÃO

4.6.5. Orientação e funções lineares. Dadas uma famı́lia ordenada de ve-


tores A := {v 1 , . . . , v k } ⊂ V e uma função linear f : V → W , definimos f (A) :=
{f (v 1 ), . . . , f (v k )} ⊂ W .
Definição 4.6.9. Sejam (V, O) e (W, O0 ) espaços vetoriais orientados da mesma
dimensão e seja f : V → W um isomorfismo. Dizemos que f respeita as orientações
se, dada uma base A ∈ O, temos que f (A) ∈ O0 . Usamos a notação f (O) = O0 .
No caso em que V = W e O = O0 , dizemos que f respeita a orientação de V . ♦
Vamos verificar que a definição 4.6.9 é bem posta, ou seja, não depende da base A
escolhida. De fato, seja A0 outra base ordenada que representa a mesma orientação
de A. Temos que µ(f (A), f (A0 )) = µ(A, A0 ),12 logo, como det µ(A, A0 ) > 0, também
det µ(f (A), f (A0 )) > 0. Isso demonstra que f (A) e f (A0 ) representam a mesma
orientação de W , portanto f (A) é positivamente orientada se, e somente se, f (A0 )
o é.
Lema 4.6.10. Sejam V e W espaços vetoriais orientados da mesma dimensão
e seja f : V → W um isomorfismo. Sejam A uma base positivamente orientada
de V e B uma base positivamente orientada de W . O isomorfismo f respeita as
orientações se, e somente se, det µAB (f ) > 0.
Demonstração. Por definição µAB (f ) = µ(B, f (A)), portanto det µAB (f ) > 0
se, e somente se, B e f (A) representam a mesma o orientação de W . Dado que B é
positivamente orientada, isso equivale ao fato que f (A) o seja também. 
Sabemos que dois espaços vetoriais reais da mesma dimensão são isomorfos e
que o mesmo resultado vale em relação aos espaços euclidianos. Vale um resultado
análogo para os espaços vetoriais orientados.
Lema 4.6.11. Dados dois espaços vetoriais orientados da mesma dimensão V
e W , existe um isomorfismo f : V → W que respeita as orientações. Equivalen-
temente, todo espaço vetorial orientado de dimensão n é isomorfo a Rn dotado da
orientação canônica.
Demonstração. É suficiente fixar uma base positivamente orientada A de V
e uma base positivamente orientada B de W e considerar o único isomorfismo tal
que f (A) = B. Por definição f respeita as orientações. 
Dada uma base ordenada A = {a1 , . . . , an }, definimos ι(A) := {−a1 , a2 . . . , an }.
Já verificamos que A e ι(A) representam orientações opostas. É imediato verificar
que, se f : V → W for um isomorfismo e A for uma base de V , então f (ι(A)) =
ι(f (A)). Por isso, se f (O) = O0 , então f (−O) = −O0 , portanto obtemos facilmente
o seguinte resultado. Seja f : V → W um isomorfismo que respeita as orientações O
de V e O0 de W . Se trocarmos uma das duas orientações pela oposta, então f para
de respeitar as orientações, enquanto, se trocarmos ambas, f continua respeitando as
orientações. Em particular, fica claro que a propriedade de respeitar as orientações
12Para demonstrar esta afirmação, sejam A = {a1 , . . . , an } e A0 = {a01 , . . . , a0n } duas bases de
V e seja µ(A, A0 ) = [γij ]. Temos que a0i = γ ji aj , portanto f (a0i ) = γ ji f (aj ). Isso demonstra que
µ(f (A), f (A0 )) = [γij ] = µ(A, A0 ).
4.6. ORIENTAÇÃO E ROTAÇÕES 165

não é intrı́nseca a f , e sim depende de O e O0 . Contudo, se V = W e O = O0 , então


o fato que um automorfismo f : V → V respeite a orientação é uma propriedade
intrı́nseca a f , independentemente de O. De fato, se f (O) = O, então f (−O) = −O;
analogamente, se f (O) = −O, então f (−O) = O. Por isso, ou f respeita O e −O
ao mesmo tempo ou f inverte ambas. Podemos caracterizar o fato que f respeite a
orientação através da seguinte definição.
Definição 4.6.12. Seja f : V → V um automorfismo. O determinante de f ,
que denotamos por det(f ), é o determinante da matriz representativa de f a respeito
de uma base ordenada qualquer de V . ♦
A definição é bem posta, ou seja, não depende da base de V escolhida, pois, dadas
duas bases ordenadas A e B de V , as matrizes representativas correspondentes são
conjugadas, portanto têm o mesmo determinante.
Lema 4.6.13. Seja V um espaço vetorial real. Um automorfismo f : V → V
respeita a orientação se, e somente se, det(f ) > 0.
Demonstração. Segue imediatamente do lema 4.6.10, dado que det(f ) =
det µA (f ) = det µAA (f ). 
Como det(f ) não depende da orientação escolhida, o lema precedente mostra de
outra maneira que o fato de respeitar a orientação é intrı́nseco a f .
Notação 4.6.14. Denotamos por GL+ (V ) o conjunto dos automorfismos de V
que respeitam a orientação. Denotamos por GL+ (n; R) o subconjunto de GL(n; R)
formado pelas matrizes com determinante positivo. ♦
O leitor pode verificar que GL+ (V ) é um subgrupo de GL(V ) e que GL+ (n; R)
é um subgrupo de GL(n; R). Por causa do lema 4.6.13, temos que f ∈ GL+ (V ) se,
e somente se, µA (f ) ∈ GL+ (n; R), portanto, fixando uma base A de V , fica definido
o seguinte diagrama comutativo de grupos:
µA
(110) GL+ (V ) / GL+ (n;
_ '  R)
_

 µA

GL(V ) / GL(n; R).
'

Observamos que, no diagrama (105), V é dotado de um produto interno e A tem


que ser ortonormal. Pelo contrário, no diagrama (110) não é necessário que V seja
orientado e que A seja positivamente orientada.
Observação 4.6.15. A relação de equivalência (109) pode ser formulada afir-
mando que A ∼ B se, e somente se, µ(A, B) ∈ GL+ (n; R). Portanto, assim
como definimos a relação (101) através do grupo O(n), podemos usar a notação
A ∼GL+ B para denotar (109). Desta maneira, as bijeções (112), no caso da
orientação, se tornam por definição a igualdade {Bases ordenadas de V }/ ∼GL+ =
{Orientações de V }. ♦
166 4. PRODUTO INTERNO E ORIENTAÇÃO

4.6.6. Orientação e produto interno. Agora vamos considerar ao mesmo


tempo as noções de produto interno e de orientação.
Definição 4.6.16. Sejam V e W espaços vetoriais euclidianos orientados da
mesma dimensão. Um isomorfismo f : V → W é dito ortogonal especial se for
ortogonal e respeitar as orientações. ♦
Definição 4.6.17. Seja V um espaço vetorial euclidiano. Uma rotação em V é
um automorfismo f : V → V ortogonal especial. ♦
Na definição 4.6.17 não é necessário orientar V , dado que se trata de um auto-
morfismo. Podemos também definir a noção de matriz ortogonal especial: trata-se
de uma matriz ortogonal com determinante positivo. Como o determinante de uma
matriz ortogonal só pode ser 1 ou −1, o determinante de uma matriz ortogonal
especial é igual a 1.
Definição 4.6.18. Uma matriz A ∈ M (n; R) é dita ortogonal especial se for
ortogonal e det(A) = 1. ♦
Notação 4.6.19. Denotamos por SO(V ) o conjunto das rotações de V . Deno-
tamos por SO(n) o conjunto das matrizes ortogonais especiais de ordem n. ♦
O leitor pode verificar que SO(V ) é um subgrupo de O(V ) e que SO(n) é um
subgrupo de O(n). Em particular, SO(V ) = O(V ) ∩ GL+ (V ) e SO(n) = O(n) ∩
GL+ (n; R). Um automorfismo f : V → V é ortogonal especial se, e somente se, for
representado, a respeito de uma base ortonormal de V , por uma matriz ortogonal
especial, portanto os diagramas (105) e (110) podem ser ampliados da seguinte
maneira:

(111) SO(V ) r
µA
/ SO(n) t
Ll Ll
'

z % µA
y &
,
O(V ) r GL+ (V ) '
O(n)  r µA
+
2 k (n; R)
GL
Ll ' K

$ y % x
GL(V )
µA
/ GL(n; R).
'

No diagrama (111), V é dotado de um produto interno e A é ortonormal, mas não


é necessário que V seja orientado e que A seja positivamente orientada.
Observação 4.6.20. Intersetando as relações de equivalência (101) e (109),
obtemos as seguintes bijeções:
 
Φ
   Pares (produto 
Bases ordenadas &
(112) ∼SO f interno, orientação) .
de V
em V
 
−1
Φ

A função Φ associa à classe [A] o produto interno que torna A ortonormal e a


orientação representada por A. A inversa associa a um par (h · , · i, O) a famı́lia das
bases ordenadas que pertencem a O e são ortonormais para h · , · i. ♦
4.6. ORIENTAÇÃO E ROTAÇÕES 167

4.6.7. Pull-back e push-forward.


Definição 4.6.21. Seja f : V → W um isomorfismo de espaços vetoriais reais
e seja O uma orientação de W . A orientação pull-back em V através de f , que
denotamos por f ∗ O, é definida declarando uma base ordenada A positivamente
orientada se, e somente se, f (A) o é. ♦
Observamos que a orientação pull-back é a única que torna f um isomorfismo
que respeita as orientações. Equivalentemente, se V e W forem espaços vetoriais
orientados e f : V → W respeitar as orientações, então a orientação de V é o pull-
back da de W através de f . Por isso podemos reformular o lema 4.6.11 da seguinte
maneira.
Lema 4.6.22. Dados dois espaços vetoriais orientados da mesma dimensão (V, O)
e (W, O0 ), existe um isomorfismo f : V → W tal que O = f ∗ O0 . Equivalente-
mente, toda orientação em um espaço vetorial real V de dimensão n é o pull-back
da canônica de Rn através de um isomorfismo f : V → Rn .
Corolário 4.6.23. Dadas duas orientações O e O0 em V , existe um automor-
fismo f : V → V tal que O0 = f ∗ O.
O lema e o corolário precedentes são mais simples que no caso dos produtos
internos, pois todo espaço vetorial real (diferente de {0}) admite somente duas
orientações, enquanto admite infinitos produtos escalares. Ademais, não existe uma
noção de “restrição de uma orientação a um subespaço”, enquanto vimos que com
um produto interno isso faz sentido.
Por enquanto definimos o pull-back de uma orientação, mas fica fácil definir
analogamente o push-forward.
Definição 4.6.24. Seja f : V → W um isomorfismo de espaços vetoriais reais e
seja O uma orientação em V . A orientação push-forward em W através de f , que
denotamos por f∗ O, é definida declarando A positivamente orientada se, e somente
se, f −1 (A) o é. ♦
É evidente que f∗ O = (f −1 )∗ O e vice-versa.
4.6.8. Soma de ângulos. Ainda devemos provar que, se o ângulo de v a u for
θ e o de u a w for ψ, então o de v a w é θ + ψ. Antes de tudo, como definimos
o cosseno através da série de potências correspondente, podemos definir da mesma
maneira o seno:
+∞
X θ2n+1
sin θ := (−1)n .
n=0
(2n + 1)!
Pode-se demonstrar com técnicas elementares de cálculo (sem usar a noção de
ângulo) que:
(i) cos2 θ + sin2 θ = 1;
(ii) as funções cos e sin são 2π-periódicas e (cos θ, sin θ) = (cos ψ, sin ψ) se, e so-
mente se, ψ − θ = 2kπ, sendo k ∈ Z;
(iii) se u2 + v 2 = 1, sendo u, v ∈ R, existe θ ∈ R tal que u = cos θ e v = sin θ;
168 4. PRODUTO INTERNO E ORIENTAÇÃO

(iv) cos(−θ) = cos(θ) e sin(−θ) = − sin θ.


(v) cos(θ + ψ) = cos θ cos ψ − sin θ sin ψ e sin(θ + ψ) = sin θ cos ψ + cos θ sin ψ.
O item (iii) implica que todo vetor de norma 1 em R2 (com o produto interno
canônico) é da forma uθ := (cos θ, sin θ) e o item (ii) implica que uθ = uψ se, e
somente se, os ângulos θ e ψ coincidem.
Lema 4.6.25. O ângulo de uθ a uη (orientando R2 canonicamente) é η − θ.
Demonstração. Se uη = ±uθ a tese segue imediatamente do lema 4.2.17,
portanto podemos supor que {uθ , uη } seja independente. Seja ψ o ângulo de uθ a uη .
Temos que huθ , uη i = cos θ cos η+sin θ sin η = cos(θ−η), logo ψ = ±(η−θ). Ademais,
a matriz de mudança de base da canônica à {uθ , uη } é [uθ | uη ], cujo determinante é
cos θ sin η − cos η sin θ = sin(η − θ), logo sin ψ > 0 (isto é, {uθ , uη } é positivamente
orientada) se, e somente se, sin(η − θ) > 0. Isso implica que ψ = η − θ. 

O lema 4.6.25 implica imediatamente que a soma entre o ângulo de uθ a uψ e o


de uψ a uη coincide com o ângulo de uθ a uη , dado que (ψ − θ) + (η − ψ) = η − θ.
Podemos facilmente estender esta propriedade a todo plano euclidiano orientado.
Lema 4.6.26. Sejam (V, O) e (W, O0 ) dois espaços vetoriais euclidianos orienta-
dos de dimensão 2. Sejam v ∈ V e w ∈ W dois vetores unitários.13 Existe um único
isomorfismo ortogonal f : V → W , que respeita as orientações, tal que f (v) = w.
Demonstração. Existem dois vetores unitários ortogonais a v, um dos quais,
que denotamos por v ⊥ , torna {v, v ⊥ } uma base positivamente orientada de V (equi-
valentemente, o ângulo de v a v ⊥ é π2 ). Analogamente, seja {w, w⊥ } uma base posi-
tivamente orientada de W . Como f deve respeitar o produto interno (logo também
a norma), f (v ⊥ ) = ±w⊥ . Como f deve respeitar as orientações, f (v ⊥ ) = w⊥ . Dado
que fixamos a imagem de uma base, f fica completamente determinado, portanto
é o único isomorfismo que pode verificar o enunciado. Por construção f manda
uma base ortonormal positivamente orientada em uma base ortonormal positiva-
mente orientada, logo f é efetivamente um isomorfismo ortogonal que respeita as
orientações. 
Corolário 4.6.27. Seja (V, O) um espaço vetorial euclidiano orientado de di-
mensão 2 e sejam v, u, w ∈ V três vetores não nulos. Se o ângulo de v a u for θ e
o de u a w for ψ, então o de v a w é θ + ψ.
Demonstração. Dado que os ângulos não dependem das normas, podemos
supor que kvk = kuk = kwk = 1. Dotando R2 do produto interno o da orientação
canônicos e aplicando o lema 4.6.26, seja f : V → R2 o único isomorfismo ortogonal,
que respeita as orientações, tal que f (v) = (1, 0). Pelo lema 4.6.25, como (1, 0) = u0 ,
temos que f (u) = uθ e f (w) = uη , sendo η o ângulo de v a w. Necessariamente o
ângulo ψ de u a w coincide com o de f (u) = uθ a f (w) = uη , logo ψ = η − θ pelo
lema 4.6.25. 
13Lembramos que um vetor v é unitário quando kvk = 1.
4.6. ORIENTAÇÃO E ROTAÇÕES 169

O corolário 4.6.27 foi enunciado orientando V , mas a tese vale para cada uma das
duas orientações, portanto é uma propriedade intrı́nseca. O leitor poderá achar uma
formulação deste resultado, que não se refere explicitamente à noção de orientação,
no exercı́cio 4.48 da próxima seção.
4.6.9. Exercı́cios.
4.41. Seja V = W ⊕ W 0 . Suponhamos que os espaços V , W e W 0 sejam orientados de
modo que a orientação de cada um dos três seja induzida pelas dos dois demais (v. ob-
servação 4.6.7). Sejam A = {w1 , . . . , wk } uma base ordenada de W e A0 = {wk+1 , . . . , wn }
uma base ordenada de W 0 . Consideremos as três bases ordenadas A, A0 e A t A0 , respeti-
vamente de W , W 0 e V . Demonstre que uma destas bases é positivamente orientada se, e
somente se, as duas demais são ambas positivamente orientadas ou ambas negativamente
orientadas.
4.42. Seja V ⊂ R3 o plano passante pela origem ortogonal ao vetor (1, 1, −1). Ori-
entamos o plano de modo que {(1, 1, −1)} seja uma base positivamente orientada de V ⊥ .
Encontre o ângulo de (1, 0, 1) a (0, 1, 1) em V .
4.43. Seja V ⊂ Rn o plano x − y + 3z = 0 e escolhamos a orientação tal que o vetor
normal (1, −1, 3) é positivamente orientado. Ache uma base positivamente orientada de
V.
4.44. Sejam W = h(1, 0, 1)i e V = h(1, 0, 1), (1, 2, 2)i. Orientemos W de modo que
A = {(1, 0, 1)} seja positivamente orientada e V de modo que A0 = {(1, 0, 1), (1, 2, 2)} seja
positivamente orientada. Ache a orientação induza em W ⊥V .
4.45. Sejam W = h(0, 1, 1, 0)i e V ⊂ R4 o hiperplano y − z − 2w = 0. Orientando
W de modo que a base {(0, 1, 1, 0)} seja positivamente orientada e V de modo que o
vetor normal (0, 1, −1, −2) seja positivamente orientado, seja W ⊥V dotado da orientação
induzida. Calcule o ângulo entre de v = (1, −1, 1, −1) a w = (2, 0, 0, 0), sendo v, w ∈ W ⊥V .
4.46. Seja V ⊂ R4 o subespaço vetorial formado pelos vetores (x, y, z, w) tais que

x + y + 2w = 0
y − 2z + w = 0.
Orientamos V de modo que, considerando a orientação induzida no complemento ortogonal
V ⊥ , o ângulo de (1, 1, 0, 2) a (0, 1, −2, 1) e − π3 . Encontre uma base positivamente orientada
de V .
4.47. Consideremos o espaço R2 com a orientação canônica e o subespaço W =
h(1, 1, 1), (1, 0, 2)i ⊂ R3 com a orientação representada pela base A = {(1, 1, 1), (1, 0, 2)}.
Estabeleça se o isomorfismo f (x, y) = (x, x − y, x + y) respeita as orientações.
4.48. Sejam V um espaço vetorial real de dimensão 2 e {v, w} uma base de V . Seja
u ∈ V um vetor não nulo, que não seja múltiplo de v nem de w. Demonstre que as duas
seguintes condições são equivalentes:
(1) as bases ordenadas {v, u}, {u, w} e {v, w} representam a mesma orientação;
(2) u = λv + µw com λ, µ > 0.
Dizemos que u está incluso entre v e w se valerem as duas condições precedentes. Na
seguinte figura o vetor u1 está incluso entre v e w, o vetor u2 está incluso entre −v e w e
assim em diante.
170 4. PRODUTO INTERNO E ORIENTAÇÃO

w
u2 u1

u3 u4

Observação: Podemos formular parcialmente o corolário 4.6.27, evitando a noção de


orientação, da seguinte maneira. Dado um espaço vetorial euclidiano de dimensão 2, seja
u incluso entre v e w. Sejam ±θ os ângulos entre v e w, ±ψ os entre v e u e ±η os entre
u e w, sendo 0 ≤ θ, ψ, η ≤ π. Temos que θ = ψ + η. ♦

Observação: Podemos utilizar o exercı́cio 4.48 para definir a noção de ângulo. De fato,
por enquanto usamos a expressão “o ângulo θ”, mas θ é a medida do ângulo (exatamente
como o comprimento de um segmento não é o segmento mesmo). Geometricamente, se
{v, w} for independente, seja U a região do plano formada pelos vetores incusos entre
v e w. Um ângulo entre os dois vetores é definido como a união entre U e as duas
semirretas geradas por v e w (topologicamente se trata do fecho de U ). O outro ângulo é
o complementar de U .

v v
θ w w

2π − θ

Observamos que a distinção entre os dois ângulos é intrı́nseca, independentemente da


orientação fixada para medi-los (isto é, para estabelecer se θ está incluso entre 0 e π
ou entre π e 2π). Quando v e w forem paralelos e não nulos, temos as duas seguintes
possibilidades. Seja v = λw. Se λ > 0, os dois ângulos são os seguintes:

w w
v v


4.7. HOMOTETIAS E TRANSFORMAÇÕES (ANTI)CONFORMES 171

Formalmente, a primeira região do plano é a semirreta {µv : µ ≥ 0} e a segunda é o plano


todo. Enfim, a segunda possibilidade ocorre quando v = λw, sendo λ < 0. Nesse caso
obtemos os dois semiplanos determinados pela reta gerada por v e w (topologicamente se
trata dos fechos das duas componentes conexas de V \ hvi).

v v
π

π
w w

Observamos que, nesta situação, não é possı́vel distinguir intrinsecamente as duas regiões,
e sim é necessário fixar uma orientação. ♦
4.49. Seja V um espaço vetorial euclidiano orientado de dimensão 2.
(1) Sejam v e w dois vetores unitários. Além disso, seja v ⊥ o único vetor unitário
tal que {v, v ⊥ } é uma base positivamente orientada de V e seja θ o ângulo de v
a w. Demonstre que w = cos θv + sin θv ⊥ .
(2) Demonstre o corolário 4.6.27 a partir do item precedente, sem fixar um isomor-
fismo de V a R2 .
4.50. Seja f : V → W um isomorfismo de espaços vetoriais reais.
(1) Demonstre que fica definido o seguinte isomorfismo de grupos:
f# : GL(V ) → GL(W )
ϕ 7→ f ◦ ϕ ◦ f −1 .
(2) Verifique que (f −1 )# = (f# )−1 e, se g : W → Z for outro isomorfismo, então
(g ◦ f )# = g# ◦ f# .
(3) Verifique se, se A for uma base ordenada de V , µA (ϕ) = µf (A) (f# (ϕ)).
(4) Demonstre que f# se restringe ao isomorfismo f# : GL+ (V ) → GL+ (W ).
(5) Demonstre que, se V e W forem euclidianos e f for ortogonal, então f# se
restringe aos isomorfismos f# : O(V ) → O(W ) e f# : SO(V ) → SO(W ).

4.7. Homotetias e transformações (anti)conformes


Concluı́mos este capı́tulo estudando um classe muito significativa de funções
lineares, que generaliza a das ortogonais. Trata-se das transformações lineares entre
espaços vetoriais euclidianos que mantêm os ângulos, isto é, tais que, se ±θ for o
ângulo entre v e w, então o entre f (v) e f (w) continua sendo ±θ. Equivalentemente,
damos a seguinte definição.
Definição 4.7.1. Sejam V e W espaços vetoriais euclidianos. Uma função
linear injetora f : V → W preserva os ângulos se, para todos v 1 , v 1 ∈ V não nulos,
172 4. PRODUTO INTERNO E ORIENTAÇÃO

o cosseno do ângulo entre v 1 e v 2 coincide com o do ângulo entre f (v 1 ) e f (v 2 ), ou


seja:
hv 1 , v 2 i hf (v 1 ), f (v 2 )i
= . ♦
kv 1 k · kv 2 k kf (v 1 )k · kf (v 2 )k

É claro que, se f não for injetora, a definição precedente nem faz sentido, pois o
denominador kf (v 1 )k · kf (v 2 )k pode anular-se. Geometricamente, se um vetor não
nulo pertencer ao kernel de f , então f não pode manter os ângulos, pois o ângulo
de um vetor nulo a outro vetor nem está definido.
Definição 4.7.2. Seja V um espaço vetorial real. Uma função linear f : V → V
é dita homotetia se for um múltiplo positivo da identidade, ou seja, existe ρ > 0 tal
que f (v) = ρv para todo v ∈ V . Se ρ > 1 a homotetia f é dita também dilatação,
se ρ < 1 é dita também contração. ♦
Fixando qualquer produto interno em V , uma homotetia diferente da identidade
não é uma transformação ortogonal, pois a norma de um vetor fica multiplicada por
ρ. Contudo, o ângulo entre dos vetores fica preservado. Agora podemos caracterizar
todas as transformações que preservam os ângulos, graças ao seguinte lema.
Lema 4.7.3. Sejam V e W espaços vetoriais euclidianos. Uma função linear
injetora f : V → W preserva os ângulos se, e somente se, for a composição entre
uma homotetia (em V ou em W indiferentemente) e uma transformação ortogonal.
Equivalentemente, existem uma função ortogonal g : V → W e um número ρ > 0
tais que f (v) = ρg(v) para todo v ∈ V .
Demonstração. (⇐) Temos que:
hf (v 1 ), f (v 2 )i hρg(v 1 ), ρg(v 2 )i hg(v 1 ), g(v 2 )i hv 1 , v 2 i
= = = .
kf (v 1 )k · kf (v 2 )k kρg(v 1 )k · kρg(v 2 )k kg(v 1 )k · kg(v 2 )k kv 1 k · kv 2 k
(⇒) Seja A = {a1 , . . . , an } uma base ortonormal de V . Como f preserva os ângulos,
hf (a1 ), f (aj )i = 0 para i 6= j, portanto f (A) é uma base ortogonal de f (V ). Sejam
f (a )
bi := kf (ai )k e ρi := kai k. A base B = {b1 , . . . , bn } de f (V ) é ortonormal e f (ai ) =
i
ρi bi . A menos de multiplicar bi por −1 (o que mantém B ortonormal), podemos
supor que ρi > 0. Para todos i e j distintos, temos que hai + aj , ai − aj i = 0, logo,
dado que f preserva os ângulos, hρi bi + ρj bj , ρi bi − ρj bj i = 0, ou seja, ρ2i − ρ2j = 0,
logo ρi = ρj . Seja ρ = ρi (para qualquer i) e seja g : V → W a função ortogonal tal
que g(A) = B. Temos que f (v) = ρg(v) para todo v ∈ V . 
Observação 4.7.4. No lema 4.7.3, a linearidade de f é uma hipótese necessária,
isto é, não pode ser deduzida a partir do fato que f mantenha os ângulos. Por
exemplo, consideremos a função f : V → V , v 7→ kvk · v. É fácil verificar que f
mantém os ângulos, porém não é linear. ♦
Enfim, a seguinte definição considera ao mesmo tempo o comportamento de uma
função linear em relação aos ângulos e em relação à orientação.
4.7. HOMOTETIAS E TRANSFORMAÇÕES (ANTI)CONFORMES 173

Definição 4.7.5. Sejam V e W espaços vetoriais euclidianos orientados. Um


isomorfismo f : V → W é dito conforme se preserva os ângulos e a orientação; é dito
anti-conforme se preserva os ângulos e inverte a orientação. ♦
Em geral, mesmo fixando as orientações de V e W , não faz sentido perguntar-se se
f preserva os ângulos orientados, pois o plano gerado por dois vetores de V ou de W
não herda canonicamente uma orientação. Contudo, se dim V = dim W = 2, então
o fato de serem orientados determina completamente o ângulo entre dois vetores,
portanto, neste caso, uma transformação é conforme se, e somente se, preserva
os ângulos orientados; analogamente, é anti-conforme se, e somente se, inverte os
ângulos orientados.
CAPı́TULO 5

Espaços vetoriais complexos

A definição de espaço vetorial foi formulada em relação a um corpo genérico,


portanto, em particular, vale para R e para C. Nestes dois casos obtemos res-
petivamente um espaço vetorial real e um espaço vetorial complexo. O capı́tulo
precedente concernia exclusivamente os espaços reais, dado que as noções de norma,
produto interno e orientação foram formuladas naturalmente neste contexto. Agora
começamos o estudo sistemático dos espaços complexos, por enquanto somente do
ponto de vista da estrutura linear. Tratando estes espaços, mostraremos como des-
crevê-los através de uma linguagem completamente real, tornando bem mais fácil
a visualização das estruturas geométricas subjacentes. Também será possı́vel fazer
o contrário, ou seja, descrever os espaços reais com uma linguagem complexa; isso
será menos útil do ponto de vista da visualização intuitiva, mas será uma maneira
natural de completar a simetria entre o caso real e o caso complexo, além de ser uma
construção bastante relevante para os leitores que estudarão geometria complexa no
futuro.

5.1. Funções lineares e anti-lineares


Dados dois espaços vetoriais complexos V e W , chamamos de Hom(V, W ) o con-
junto das funções lineares de V a W . Já vimos que há uma estrutura natural de
espaço vetorial complexo em Hom(V, W ), definida por (f + g)(v) := f (v) + g(v)
e (λf )(v) := λ · f (v). Ademais, a composição ◦ : Hom(V, W ) × Hom(W, Z) →
Hom(V, Z) é bem definida e bilinear, portanto Hom(V, V ) é uma C-álgebra associa-
tiva. Tudo isso foi mostrado para um corpo genérico, logo vale em particular para C.
Pelo contrário, a seguinte definição é especı́fica do caso complexo (exceto o primeiro
item sobre a linearidade, que vamos repetir por completude).
Definição 5.1.1. Sejam V e W espaços vetoriais complexos. Uma função
f : V → W é dita:
• linear ou C-linear se f (λv + µw) = λf (v) + µf (w) para todos v, w ∈ V e
λ, µ ∈ C;
• anti-linear ou anti-C-linear se f (λv + µw) = λ̄f (v) + µ̄f (w) para todos
v, w ∈ V e λ, µ ∈ C;
• R-linear se f (λv + µw) = λf (v) + µf (w) para todos v, w ∈ V e λ, µ ∈ R,
pensando em R como em um subcorpo de C. ♦

É claro que toda função linear e toda função anti-linear são R-lineares, mas uma
função pode ser R-linear sem ser linear nem anti-linear.
175
176 5. ESPAÇOS VETORIAIS COMPLEXOS

Exemplo. A conjugação conj : Cn → Cn , z 7→ z̄, é anti-linear. As funções parte real


e parte imaginária de um vetor, que pensamos como funções de Cn a Cn , são R-lineares,
mas não são nem lineares nem anti-lineares. ♦
Exemplo. Entre as seguintes funções de C2 a C2 , f é linear, g é anti-linear e h é
R-linear; além disso, h não é nem linear nem anti-linear.
           
z 2z − iw z 2z̄ − iw̄ z 2z − iw̄
f: 7→ g: 7→ h: 7→ .
w iz + 3w w iz̄ + 3w̄ w iz̄ + 3w
Na seção 5.2.7 entenderemos melhor a estrutura destas famı́lias de funções. ♦
Notação 5.1.2. Denotamos por Hom(V, W ) o conjunto das funções lineares de
V a W , por Hom0 (V, W ) o das funções anti-lineares e por HomR (V, W ) o das funções
R-lineares. ♦
Com esta notação, Hom(V, W ) ∪ Hom0 (V, W ) ⊂ HomR (V, W ), sendo a inclusão
própria se V e W forem não nulos. Resolvendo o exercı́cio 5.1 da seção 5.1.4, o leitor
demonstrará que Hom(V, W ) ∩ Hom0 (V, W ) = {0}.
Antes de estudar mais em detalhe estas três famı́lias de funções, já podemos
antecipar que, se V = Cn e W = Cm :
• toda função linear é da forma z 7→ Az, sendo A ∈ M (m, n; C);
• toda função anti-linear é da forma z 7→ Az̄, sendo A ∈ M (m, n; C);
• identificando Cn com R2n , através da bijeção (a1 + ib1 , . . . , an + ibn ) ↔
(a1 , b1 , . . . , an , bn ), toda função R-linear f : Cn → Cm corresponde a uma
função linear f : R2n → R2m .
Para V e W genéricos, fixando uma base A de V e uma base B de W , mostraremos
que se pode obter uma descrição análoga através da noção de matriz representativa.
5.1.1. Espaço vetorial conjugado. Mesmo se pode parecer inatural, o con-
junto das funções anti-lineares de V a W é dotado de uma estrutura canônica de
espaço vetorial complexo, definida (como no caso linear) por (f +g)(v) := f (v)+g(v)
e (λf )(v) := λ · f (v). De fato, se f, g ∈ Hom0 (V, W ) e λ, µ, ξ ∈ C, temos que
(λf + µg)(ξv) = λf (ξv) + µg(ξv) = λξf ¯ (v) + µξg(v)
¯ ¯ (v) + µg(v)) =
= ξ(λf
¯
ξ(λf + µg)(v), logo λf + µg é anti-linear. Podemos dar uma justificação mais
intrı́nseca deste fato, graças à seguinte definição.
Definição 5.1.3. Seja V um espaço vetorial complexo. O espaço vetorial con-
jugado V é o espaço vetorial complexo definido da seguinte maneira:
• como conjunto V = V ;
• a soma em V coincide com a em V ;
• denotando por ‘ · ’ o produto externo em V e por ‘◦’ o em V , definimos
λ ◦ v := λ̄ · v. ♦
O leitor pode verificar que V satisfaz os axiomas de espaço vetorial (v. ex. 5.3
da seção 5.1.4). A demonstração do seguinte lema é imediata.
Lema 5.1.4. Uma função f : V → W é anti-linear se, e somente se, a mesma
função f : V → W é linear. Logo, como conjuntos, Hom0 (V, W ) = Hom(V, W ).
Analogamente, Hom0 (V, W ) = Hom(V , W ).
5.1. FUNÇÕES LINEARES E ANTI-LINEARES 177

Agora é claro que Hom0 (V, W ) é um espaço vetorial complexo, pois coincide com
o espaço das funções lineares entre dois espaços vetoriais complexos. Contudo, temos
que prestar atenção ao seguinte fato. Os conjuntos Hom(V, W ) e Hom(V , W ) coinci-
dem. Também a soma é a mesma nos dois casos. Todavia, o produto externo muda,
pois, por definição, devemos aplicar pontualmente o produto externo do contra-
domı́nio, o qual é W no primeiro caso e W no segundo. Por isso, se f ∈ Hom(V, W ),
temos que (λf )(v) = λ ◦ f (v) = λ̄ · f (v), enquanto, se f ∈ Hom(V , W ), temos que
(λf )(v) = λ · f (v).
Notação 5.1.5. Definimos Hom0 (V, W ) := Hom(V, W ) e Hom00 (V, W ) := Hom
(V , W ). ♦
Como conjuntos e como grupos abelianos Hom0 (V, W ) = Hom00 (V, W ), mas,
como espaços vetoriais complexos, Hom00 (V, W ) = Hom0 (V, W ) e vice-versa.1
Vamos completar esta seção acrescentando algumas propriedades relevantes da
operação de conjugação entre espaços vetoriais complexos.
Lema 5.1.6. Uma base A = {a1 , . . . , an } de V é também uma base de V e
vice-versa.
Demonstração. Seja v ∈ V . Temos também que v ∈ V , portanto, usando
a notação da definição 5.1.3 para o produto externo, existem λ1 , . . . , λn ∈ C tais
que v = λi · ai = λ̄i ◦ ai , logo A gera V . Ademais, seja λi ◦ ai = 0. Isso equivale
a λ̄i · ai = 0, portanto λ̄i = 0 para todo i, logo λi = 0. Isso demonstra que A é
independente em V , logo é uma base. Pode-se provar da mesma maneira que, se A
for uma base de V , então é uma base de V . 
Corolário 5.1.7. Uma base A de V determina o isomorfismo (não canônico)
'
ΦA : V −→ V , ai 7→ ai .
Observamos que o isomorfismo mostrado no corolário 5.1.7, apesar de fixar os
elementos da base A, não é a identidade como função entre conjuntos, pois λi · ai 7→
λi ◦ ai = λ̄i · ai . Por exemplo, se V = Cn e A for a base canônica, obtemos a
'
conjugação conj : Cn −→ Cn , z 7→ z̄. Enfim, o seguinte lema mostra que conjugando
duas vezes obtemos o espaço vetorial de partida.

Lema 5.1.8. V = V como espaços vetoriais complexos.


Demonstração. Pela definição 5.1.3, aplicada duas vezes, vale a igualdade
V = V entre conjuntos e a operação de soma é a mesma. Sejam ‘ · ’ o produto
externo em V , ‘◦’ o em V e ‘}’ o em V . Aplicando duas vezes a definição 5.1.3
¯ · v = λ · v, logo } = · . Por isso V e V coincidem
temos que λ } v = λ̄ ◦ v = λ̄
como conjuntos, têm a mesma soma e o mesmo produto externo, logo são o mesmo
espaço vetorial complexo. 
1Isso
implica que a estrutura de espaço vetorial complexo, descrita antes da definição 5.1.3, é
a de Hom00 (V, W ), não a de Hom0 (V, W ).
178 5. ESPAÇOS VETORIAIS COMPLEXOS

5.1.2. Conjugação e matriz representativa. Seja f : Cn → Cm uma função


R-linear e seja f 0 := conj ◦ f , ou seja, f 0 (z) := f (z). É fácil verificar que f é
linear se, e somente se, f 0 é anti-linear e vice-versa. Analogamente, podemos definir
f 00 := f ◦conj, ou seja, f 00 (z) := f (z̄). Também neste caso f é linear se, e somente se,
f 00 é anti-linear e vice-versa. Obtemos os seguintes isomorfismos de espaços vetoriais
complexos, conforme a notação 5.1.5:
' '
C : Hom(Cn , Cm ) −→ Hom0 (Cn , Cm ) C̃ : Hom(Cn , Cm ) −→ Hom00 (Cn , Cm )
(113)
f 7→ f 0 f 7→ f 00 .

O leitor pode verificar que C e C̃ são efetivamente bijetoras e C-lineares (v. exercı́cio
5.5 da seção 5.1.4). Dado que toda função linear de Cn a Cm é da forma z 7→ Az,
por causa dos isomorfismos (113) temos que toda função anti-linear é da forma
z 7→ Az̄, portanto Hom(Cn , Cm ) e Hom0 (Cn , Cm ) são ambos isomorfos a M (m, n; C),
como já tı́nhamos antecipado na seção 5.1. Isso esclarece a estrutura do espaço
Hom0 (Cn , Cm ). Uma consideração análoga vale para Hom00 (Cn , Cm ).
Os isomorfismos Hom(Cn , Cm ) ' Hom0 (Cn , Cm ) ' M (m, n; C) podem ser gene-
ralizados a espaços vetoriais quaisquer, mas de modo não canônico, graças ao lema
5.1.6 (equivalentemente, graças ao corolário 5.1.7).
Notação 5.1.9. Sejam A uma base de V e B uma base de W . Seja f : V → W
anti-linear. Sendo B uma base de W pelo lema 5.1.6 e sendo f : V → W linear
pelo lema 5.1.4, fica definida a matriz representativa de f a respeito de A e B, que
denotamos por µ0AB (f ). ♦
Explicitamente, fixemos uma base A = {a1 , . . . , an } de V e uma base B =
{b1 , . . . , bm } de W . Dada uma função linear f : V → W , seja µAB = [γij ], isto é,
f (ai ) = γ ji bj . Isso implica que f (λi ai ) = µj bj = λi γ ji bj , logo µj = γ ji λi , ou seja:
µ1 λ1
   
 ...  = µAB (f )  ...  .
µm λn
Analogamente, dada uma função anti-linear g : V → W , seja µ0AB = [ij ], isto é,
g(ai ) = j i ◦ bj = ¯ji bj . Isso implica que g(λi ai ) = µi ◦ bi = µ̄i bi , sendo:
µ1 λ1
   
 ..  = µAB (g)  ...  .
. 0

µm λn
' '
Obtemos os isomorfismos µAB : Hom(V, W ) −→ M (n, m; C) e µ0AB : Hom0 (V, W ) −→
M (n, m; C), portanto obtemos também o isomorfismo µ0AB −1 ◦ µAB : Hom(V, W ) →
Hom0 (V, W ), o qual, obviamente, depende das bases A e B. Podemos descrever este
'
isomorfismo de modo mais explı́cito. Seja ΦB : W −→ W o isomorfismo descrito no
'
corolário 5.1.4. A composição com ΦB induz o isomorfismo ΦB ◦ : Hom(V, W ) −→
Hom0 (V, W ), f 7→ ΦB ◦ f . Esse isomorfismo é precisamente µ0AB −1 ◦ µAB , ou seja, o
5.1. FUNÇÕES LINEARES E ANTI-LINEARES 179

seguinte diagrama comuta (v. exercı́cio 5.5 da seção 5.1.4):


ΦB ◦
(114) Hom(V, W ) / Hom0 (V, W )

µAB µ0AB
' v
M (n, m; C).
Com isso podemos entender a estrutura do espaço Hom0 (V, W ): fixando uma base A
de V e uma base B de W , toda função anti-linear se obtém a partir de uma linear,
conjugando os escalares no contra-domı́nio. Mais precisamente, à função linear
f : V → W , tal que f (λi ai ) = µj bj , fica associada a função anti-linear f 0 : V → W ,
tal que f (λi ai ) = µj ◦ bj = µ̄j bj . Quando V = Cn , W = Cm e A e B forem as bases
canônicas, o isomorfismo ΦB ◦ coincide com o isomorfismo C de (113). Resolvendo
o exercı́cio 5.8 da seção 5.1.4, o leitor verá como generalizar o isomorfismo C̃.

5.1.3. Funções anti-lineares e composição. É fácil verificar, a partir da


definição, que a composição de duas transformações anti-lineares é linear, não anti-
linear. Equivalentemente, fica definida a composição:
◦ : Hom(V, W ) × Hom(W , Z) → Hom(V, Z).
Em particular Hom0 (V, V ) não é uma C-álgebra, dado que Hom0 (V, V ) = Hom(V, V ),
sendo V 6= V . Pode-se verificar de modo análogo que a composição entre uma
função linear e uma função anti-linear é anti-linear. O comportamento em relação à
composição é a assimetria principal entre funções lineares e funções anti-lineares.
5.1.4. Exercı́cios.
5.1. Sejam V e W espaços vetoriais complexos. Demonstre que a única função f : V →
W , ao mesmo tempo linear e anti-linear, é a função nula.
5.2. Seja f : R2 → R2 linear. Identificando C com R2 como conjunto (e como grupo
abeliano), isso equivale a considerar uma função R-linear f : C → C. Se f for não nula,
lembrando a definição 4.7.5, demonstre que f é (anti-)C-linear se, e somente se, é (anti-
)conforme.
5.3. Verifique que o espaço vetorial conjugado V satisfaz os axiomas de espaço vetorial
complexo.
5.4. Sejam V e W espaços vetoriais complexos. Demostre que f : V → W é linear
se, e somente se, a mesma função f : V → W é linear. Equivalentemente, como conjun-
tos, Hom(V, W ) = Hom(V , W ). Verifique que, como espaços vetoriais, Hom(V , W ) =
Hom(V, W ).
5.5. Verifique que as funções (113) são bijetoras e C-lineares.
'
5.6. Verifique que o isomorfismo ΦB ◦ : Hom(V, W ) −→ Hom0 (V, W ) está bem definido
e que o diagrama (114) é comutativo.
5.7. Verifique que, se V = Cn , W = Cm e A e B forem as bases canônicas, então o
isomorfismo ΦB ◦ do diagrama (114) coincide com o isomorfismo C de (113).
180 5. ESPAÇOS VETORIAIS COMPLEXOS

5.8. Dadas uma base A de V e uma base B de W , demonstre que a função ◦Φ−1
A : Hom(V,
W ) → Hom00 (V, W ), f 7→ f ◦ Φ−1
A , é um isomorfismo de espaços vetoriais complexos, o
qual torna comutativo o seguinte diagrama:
◦Φ−1
(115) Hom(V, W )
A
/ Hom00 (V, W )

µAB µ00
' v AB
M (n, m; C),
sendo µ00AB (f ) a matriz representativa da função anti-linear f : V → W , pensada como
função linear f : V → W .
5.9. Verifique que, se V = Cn , W = Cm e A e B forem as bases canônicas, então o
isomorfismo ◦Φ−1A do diagrama (115) coincide com o isomorfismo C̃ de (113).

5.10. Sejam A = {(1, i), (1, −i)} e B = {(1, 0), (i, 1)}. Seja f : C2 → C2 , (z, w) 7→
(3z − 2iw, −iz). Claramente f ∈ Hom(C2 , C2 ). Calcule a imagem de f em Hom0 (C2 , C2 )
através do isomorfismo ΦB ◦ do diagrama (114) e a imagem de f em Hom00 (C2 , C2 ) através
do isomorfismo ◦Φ−1 A do diagrama (115).

5.2. Realificação e estrutura complexa


Nesta seção denotaremos por V um espaço vetorial complexo. Como o produto
externo λv está definido para todos λ ∈ C e v ∈ V , em particular está definido para
todos λ ∈ R e v ∈ V , portanto V tem também uma estrutura natural de espaço
vetorial real, conforme a seguinte definição.
Definição 5.2.1. O espaço vetorial real VR , chamado de realificação de V , é
definido da seguinte maneira:
• como conjunto, VR := V ;
• a operação de soma em VR coincide com a em V ;
• se · : C × V → V for o produto externo em V , então o em VR é a restrição
· |R×V : R × V → V . ♦
Vamos estudar mais em detalhe a noção de realificação.
Notação 5.2.2. Seja A = {a1 , . . . , ak } ⊂ V uma famı́lia de vetores. Definimos
AR := {a1 , ia1 , . . . , ak , iak } ⊂ VR . Se A for ordenada, AR o é também. ♦
Lema 5.2.3. Seja A = {a1 , . . . , an } uma base de V . A famı́lia AR é uma base
de VR . Por isso:
(116) dim VR = 2 dim V.
Demonstração. Seja v ∈ V . Sendo A uma base, existem únicos λ1 , . . . , λn ∈
C tais que v = λ1 a1 + · · · + λn an . Seja λk = xk + iyk , sendo xk , yk ∈ R, para todo
k ∈ {1, . . . , n}. Temos que:
v = x1 a1 + y1 (ia1 ) + · · · + xn an + yn (ian ).
Isso mostra que AR é uma famı́lia de geradores de VR . Verifiquemos que é inde-
pendente. Se x1 a1 + y1 (ia1 ) + · · · + xn an + yn (ian ) = 0, então (x1 + iy1 )a1 + · · · +
5.2. REALIFICAÇÃO E ESTRUTURA COMPLEXA 181

(xn + iyn )an = 0, portanto x1 + iy1 , . . . , xn + iyn = 0. Como xk , yk ∈ R para todo k,


obtemos que x1 = y1 = · · · = xn = yn = 0. 
Observação 5.2.4. Na identidade (116), dim VR denota a dimensão real, en-
quanto dim V denota a dimensão complexa. ♦
Observação 5.2.5. A identidade (116) mostra em particular que, se um espaço
vetorial real (finitamente gerado) for a realificação de um espaço vetorial complexo,
então a sua dimensão é par. ♦
O espaço real VR , por ser a realificação de um espaço vetorial complexo, herda
uma estrutura a mais. De fato, fica definido naturalmente o seguinte automorfismo
(obviamente real):
J0 : VR → VR
(117)
v 7→ iv.
Observamos que a multiplicação por i deriva da estrutura de espaço complexo, por-
tanto, em VR , não pode ser pensada como o produto externo pelo escalar i, e sim
como a função bem definida v 7→ iv.
Observação 5.2.6. J0 é R-linear, pois, para λ, µ ∈ R, temos que J0 (λv + µw) =
i(λv + µw) = λ(iv) + µ(iw) = λJ0 (v) + µJ0 (w). De novo usamos a estrutura de
espaço complexo de V , mas somente para demonstrar a linearidade real de J0 . ♦
É imediato verificar que:
J02 = −id.
Por isso, o espaço VR , por ser a realificação de um espaço complexo, herda um
automorfismo J0 : VR → VR tal que J02 = −id. Vamos definir em geral uma estrutura
deste tipo.
Definição 5.2.7. Seja W um espaço vetorial real. Uma estrutura complexa em
W é um endomorfismo J : W → W tal que J 2 = −id. ♦
Por definição J só tem que ser um endomorfismo, mas a identidade J 2 = −1
equivale à J −1 = −J, portanto J é automaticamente um automorfismo.
Lema 5.2.8. Seja W um espaço vetorial real. Se existe uma estrutura complexa
em W , então a dimensão de W é par.
Demonstração. Seja A = {a1 , . . . , an } uma base de W e seja A = µA (J) a
matriz representativa correspondente. Temos que A2 = −In , logo (det A)2 = (−1)n .
Sendo A uma matriz real, (det A)2 ≥ 0, logo n é par. 
5.2.1. Estrutura complexa canônica de R2n . Consideremos a realificação
de Cn , isto é, (Cn )R , dotado da estrutura complexa J0 definida por (117). Fica
definido o seguinte isomorfismo de espaços vetoriais reais:
'
ξ : (Cn )R −→ R2n
(118)
(a1 + ib1 , . . . , an + ibn ) 7→ (a1 , b1 , . . . , an , bn ).
182 5. ESPAÇOS VETORIAIS COMPLEXOS

Aplicando este isomorfismo, a estrutura J0 de (Cn )R corresponde à J := ξ ◦ J0 ◦ ξ −1


em R2n . Vamos descrever explicitamente J . Temos que:
J (a1 , b1 , . . . , an , bn ) = ξ ◦ J0 (a1 + ib1 , . . . , an + ibn )
= ξ(−b1 + ia1 , . . . , −bn + ian )
= (−b1 , a1 , . . . , −bn , an ).
Obtemos o automorfismo J : R2n → R2n , representado em relação à base canônica
pela matriz:
0 −1 ··· 0 0
 
1 0 ··· 0 0
. .. .. .. 
(119)  ..
J :=  . . . .
0 0 ··· 0 −1
0 0 ··· 1 0
Em particular, em R2 obtemos a estrutura complexa (a, b) 7→ (−b, a).
Definição 5.2.9. A estrutura complexa (119) é dita estrutura complexa canônica
de R2n . ♦
A matriz J , definida em (119), desempenha um papel significativo para todo
espaço vetorial complexo, não somente para Cn . De fato, vale o seguinte lema.
Lema 5.2.10. Sejam V um espaço vetorial complexo e A uma base de V . Seja
J0 a estrutura complexa induzida em VR por V . Temos que µAR (J0 ) = J .
Demonstração. Como J(ak ) = iak e J(iak ) = −ak , a tese segue imediata-
mente da definição de matriz representativa. 
5.2.2. Confronto entre espaços complexos e espaços reais – Parte I.
Acabamos de mostrar que, se V for um espaço vetorial complexo, então a sua re-
alificação VR herda a estrutura complexa J0 : VR → VR definida por v 7→ iv. Re-
ciprocamente, seja (W, J) um par formado por um espaço vetorial real W e uma
estrutura complexa J : W → W . Fica definido o espaço vetorial complexo WJ da
seguinte maneria:
• como conjunto, WJ = W ;
• a soma em WJ coincide com a em W ;
• se w ∈ WJ e x, y ∈ R, definimos (x + iy)w := xw + yJ(w).
É fácil verificar que WJ satisfaz os axiomas de espaço vetorial complexo (v. exercı́cio
5.11 da seção 5.2.8). Obtemos a seguinte correspondência:
  V 7→ (VR ,J0 )  
Espaços vetoriais & Espaços vetoriais reais
(120) f .
complexos com estrutura complexa
WJ ←[ (W,J)

Vamos mostrar que as duas aplicações Φ : V 7→ (VR , J0 ) e Ψ : (W, J) 7→ WJ são


inversas entre si (em particular, são duas bijeções).
5.2. REALIFICAÇÃO E ESTRUTURA COMPLEXA 183

• Partamos de um espaço complexo V . Aplicando Φ obtemos o par (VR , J0 ),


sendo J0 (v) = iv. Aplicando Ψ obtemos (VR )J0 . Como grupos abelianos,
V = VR = (VR )J0 , portanto só devemos verificar que o produto externo de
V coincide com o de (VR )J0 . Denotamos por λ · v o produto externo em
V e por λ ◦ v o produto externo em (VR )J0 . Temos que (x + iy) ◦ v =
xv + yJ0 (v) = xv + y(i · v) = (x + iy) · v, logo (VR )J0 = V . Isso prova que
Ψ ◦ Φ = id.
• Reciprocamente, partamos de um espaço real com estrutura complexa (W, J).
Aplicando Ψ, obtemos WJ e, aplicando Φ, obtemos ((WJ )R , J0 ). Como
espaços vetoriais reais (WJ )R = W , portanto só devemos verificar que
J = J0 . A estrutura complexa J0 corresponde à multiplicação por i em
WJ , logo J0 (w) = iw. A multiplicação por i em WJ é definida aplicando J,
logo iw = J(w), portanto J = J0 . Isso demonstra que Φ ◦ Ψ = id.
Podemos estender a correspondência (120) também às funções lineares entre os
espaços vetoriais envolvidos. Nos próximos parágrafos denotaremos por V1 e V2 dois
espaços vetoriais complexos e por W1 e W2 dois espaços vetoriais reais.
Notação 5.2.11. Dada uma função f : V1 → V2 , a mesma f , pensada como
função de (V1 )R a (V2 )R , vai ser denotada por fR . Isso significa que, como funções,
f = fR , mas, por exemplo, a expressão “f é linear” se refere à C-linearidade, en-
quanto a expressão “fR é linear” se refere à R-linearidade. ♦
Lema 5.2.12. Sejam J0,V1 e J0,V2 as estruturas complexas induzidas em (V1 )R e
(V2 )R conforme a definição (117). Seja fR : (V1 )R → (V2 )R uma função linear. A
mesma função f : V1 → V2 é linear (ou seja, C-linear) se, e somente se, fR ◦ J0,V1 =
J0,V2 ◦ fR .
Demonstração. A função f , como função entre conjuntos, coincide com fR ,
portanto é R-linear. Logo, f é C-linear se, e somente se, f (iv) = if (v) para todo
v ∈ V . Por definição de J0,V1 e J0,V2 , isso significa que que fR (J0,V1 (v)) = J0,V2 (fR (v))
para todo v ∈ V . 
O lema 5.2.12 pode ser enunciado também afirmando que as funções C-lineares
são as funções R-lineares que tornam comutativo o seguinte diagrama:
fR
(V1 )R / (V2 )R
J0,V1 J0,V2
 fR

(V1 )R / (V2 )R .
O lema 5.2.12 foi formulado partindo de dois espaços complexos, mas, dado que as
funções Φ e Ψ no diagrama (120) são bijeções, podemos formulá-lo equivalentemente
partindo de dois espaços reais com estrutura complexa.
Notação 5.2.13. Dados dois espaços reais com estrutura complexa (W1 , J1 ) e
(W2 , J2 ) e uma função g : W1 → W2 , a mesma g, pensada como função de (W1 )J1 a
(W2 )J2 , vai ser denotada por gC . ♦
184 5. ESPAÇOS VETORIAIS COMPLEXOS

Lema 5.2.14. Seja g : W1 → W2 uma função linear. A função gC : (W1 )J1 →


(W2 )J2 é linear (ou seja, C-linear) se, e somente se, g ◦ J1 = J2 ◦ g.
O lema 5.2.14 pode ser enunciado também afirmando que as funções C-lineares
são as funções R-lineares que tornam comutativo o seguinte diagrama:
g
W1 / W2
J1 J2
 g 
W1 / W2 .
Observação 5.2.15. Para o leitor que conheça a linguagem das categorias,
podemos considerar a categoria dos espaços vetoriais complexos, cujos morfismos
são as funções C-lineares, e a dos espaços vetoriais reais com estrutura complexa,
cujos morfismos são as funções R-lineares que comutam com as estruturas complexas.
Acabamos de provar que as duas bijeções, que aparecem em (120), são isomorfismos
(inversos entre si) entre estas duas categorias. ♦
Observação 5.2.16. Se J for uma estrutura complexa em W , então −J o é
também. Lembrando a definição 5.1.3, é fácil verificar que W−J = WJ . Equivalen-
temente, dado um espaço vetorial complexo V , temos que V R = VR e, se J0 for a
estrutura complexa induzida por V em VR , então a induzida por V é −J0 . ♦
5.2.3. Pull-back e push-forward. Sejam (W1 , J1 ) um espaço vetorial real
com uma estrutura complexa e f : W1 → W2 um isomorfismo. Fica definida uma
estrutura complexa J2 em W2 , induzida pelo isomorfismo f , da seguinte maneira:
J2 := f ◦ J1 ◦ f −1 .
A estrutura J2 é dita push-forward de J1 através de f e usamos a notação J2 = f∗ J1 .
Analogamente, sejam (W2 , J2 ) um espaço vetorial real com uma estrutura complexa
e f : W1 → W2 um isomorfismo. Fica definida uma estrutura complexa J1 em W1 ,
induzida pelo isomorfismo f , da seguinte maneira:
J1 := f −1 ◦ J2 ◦ f.
A estrutura J1 é dita pull-back de J1 através de f e usamos a notação J1 = f ∗ J2 .
Observação 5.2.17. É fácil verificar que f ∗ J2 = (f −1 )∗ (J2 ) e f∗ J1 = (f −1 )∗ J1 .
Em particular f∗ f ∗ J2 = J2 e f ∗ f∗ J1 = J1 . ♦
Observação 5.2.18. Na seção 5.2.1 já usamos implicitamente a noção de push-
forward, pois de fato afirmamos que ξ∗ J0 = J . ♦
Como todo espaço vetorial complexo de dimensão n é isomorfo a Cn , é fácil
verificar que toda estrutura complexa em um espaço vetorial real é o pull-back da
estrutura canônica de R2n através de um isomorfismo. Em particular, dadas duas
estruturas complexas no mesmo espaço real W , existe um automorfismo de W que
manda uma na outra. Vamos demostrar rigorosamente estas afirmações.
Lema 5.2.19. Seja (W, J) um espaço vetorial real de dimensão 2n com estrutura
complexa. Existe um isomorfismo f : W → R2n tal que J = f ∗ J .
5.2. REALIFICAÇÃO E ESTRUTURA COMPLEXA 185

Demonstração. Como dim(WJ ) = n, existe um isomorfismo de espaços ve-


toriais complexos ϕ : WJ → Cn . O isomorfismo real ϕR : W → (Cn )R comuta com
J e J0 , sendo J0 a estrutura complexa induzida em (Cn )R por Cn . Aplicando o
isomorfismo (118), obtemos o isomorfismo ψ := ξ ◦ ϕR : W → R2n , que comuta com
J e J , isto é, ψ ◦ J = J ◦ ψ, o que equivale ao fato que J = ψ ∗ J . 
Corolário 5.2.20. Seja W um espaço vetorial real e sejam J1 e J2 duas estru-
turas complexas em W . Existe um automorfismo f : W → W tal que J2 = f ∗ J1 .
5.2.4. Realificação de uma matriz complexa. A seguinte definição será
motivada nos próximos parágrafos.
Definição 5.2.21. Seja
x11 + iy11 · · · x1m + iy1m
 

A= .. ..
 . . 
xn1 + iyn1 · · · xnm + iynm
uma matriz complexa. A realificação de A, que denotamos por AR , é a matriz
definida da seguinte maneira:
x11 −y11 ··· x1m −y1m
 
 y11 x11 ··· y1m x1m 
 . .. .. .. 
(121)  ..
AR :=  . . .
. 
x −y
n1 n1 ··· xnm −ynm 
yn1 xn1 ··· ynm xnm ♦

Dessa maneira fica definido o seguinte mergulho de espaços vetoriais reais:


ι : M (n, m; C)R ,→ M (2n, 2m; R)
(122)
A 7→ AR .
Multiplicando duas matrizes da forma (121) por blocos de ordem 2, pode-se verificar
facilmente que, quando o produto for definido, (AB)R = AR BR , portanto temos
também o mergulho de grupos ι : GL(n; C) ,→ GL(2n; R), A 7→ AR . Em particular,
A é invertı́vel se, e somente se, AR o é. Enfim, o seguinte lema será demonstrado no
capı́tulo 7. O leitor pode verificá-lo facilmente para n = 1.
Lema 5.2.22. Seja A ∈ M (n; C), logo AR ∈ M (2n; R). Temos que
(123) det(AR ) = |det(A)|2 .
Em particular, isso implica que det(AR ) ≥ 0 para toda A, sendo estritamente positivo
se, e somente se, A (equivalentemente, AR ) for invertı́vel.
Podemos motivar a definição 5.2.21 de duas maneiras equivalentes: do ponto de
vista passivo, através da noção de matriz de mudança de base, e do ponto de vista
ativo, através da noção de matriz representativa de um endomorfismo.
Lema 5.2.23. Sejam A = {a1 , . . . , an } uma base de V e B = {b1 , . . . , bk } uma
famı́lia de vetores de V . Temos que µ(AR , BR ) = (µ(A, B))R .
186 5. ESPAÇOS VETORIAIS COMPLEXOS

Demonstração. Seja µ(A, B) = [xhk + iyhk ], isto é:


bh = (xkh + iy kh )ak = xkh ak + y kh (iak )
ibh = (−y kh + ixkh )ak = −y kh ak + xkh (iak ).
Considerando a forma (121) de uma matriz realificada, isso significa que µ(AR , BR ) =
(µ(A, B))R . 
O lema precedente se aplica em particular quando B for uma base; neste caso
afirma que a matriz de mudança de base entre duas bases realificadas é a realificação
da matriz de mudança de base complexa.
Lema 5.2.24. Sejam A = {a1 , . . . , an } uma base de V1 e B = {b1 , . . . , bm }
uma base de V2 . Seja f : V1 → V2 uma função C-linear. Temos que µAR BR (fR ) =
(µAB (f ))R .
Demonstração. Segue imediatamente do lema 5.2.23, dado que µAB (f ) =
µ(B, f (A)) e µAR BR (fR ) = µ(BR , fR (AR )) = µ(BR , (f (A))R ). 

5.2.5. Estrutura complexa e orientação. A fórmula (123) e o lema 5.2.23


têm uma consequência importante. De fato, dados um espaço vetorial complexo V
e duas bases ordenadas A = {a1 , . . . , an } e B = {b1 , . . . , bn } de V , o determinante
da matriz de mudança de base µ(AR , BR ) em VR é positivo, portanto AR e BR
representam a mesma orientação, independentemente de A e B. Isso significa que
VR , por ser a realificação de V , fica canonicamente orientado. Podemos exprimir
tudo isso a partir de uma estrutura complexa em um espaço real, como mostra o
seguinte lema.
Lema 5.2.25. Seja W um espaço vetorial real de dimensão par. Uma estrutura
complexa J em W determina canonicamente uma orientação, representada por uma
base ordenada da forma AR = {a1 , J(a1 ), . . . , an , J(an )}, sendo A = {a1 , . . . , an }
uma base qualquer de WJ , ordenada de qualquer maneira.
Demonstração. Escolhendo outra base ordenada B de WJ , pelo lema 5.2.23
temos que µ(AR , BR ) = (µ(A, B))R . Sendo µ(A, B) invertı́vel, pela fórmula (123)
temos que det(µ(A, B))R > 0. 
Obviamente a orientação induzida por J depende de J, isto é, outra estrutura
complexa no mesmo espaço W pode induzir a orientação oposta (v. exercı́cio 5.17
da seção 5.2.8).

5.2.6. Anti-realificação de uma matriz complexa. A seguinte definição


será motivada nos próximos parágrafos.
Definição 5.2.26. Seja
x11 + iy11 · · · x1m + iy1m
 

A= .. ..
 . . 
xn1 + iyn1 · · · xnm + iynm
5.2. REALIFICAÇÃO E ESTRUTURA COMPLEXA 187

uma matriz complexa. A anti-realificação de A, que denotamos por A0R , é a matriz


definida da seguinte maneira:
x11 −y11 · · · x1m −y1m
 
 −y11 −x11 · · · −y1m −x1m 
 . .. .. .. 
(124) A0R := 
 .. . . .
. 
x
n1 −y n1 · · · x nm −y nm
−yn1 −xn1 · · · −ynm −xnm ♦
Dessa maneira fica definido o seguinte mergulho de espaços vetoriais reais:
ι0 : M (n, m; C)R ,→ M (2n, 2m; R)
(125)
A 7→ A0R .
Podemos motivar a definição 5.2.26 de duas maneiras equivalentes, uma ativa e uma
passiva, mas neste caso é mais natural o ponto de vista ativo. O leitor analisará o
outro ponto de vista resolvendo o exercı́cio 5.18 da seção 5.2.8.
Lema 5.2.27. Sejam A = {a1 , . . . , an } uma base de V1 e B = {b1 , . . . , bm } uma
base de V2 . Seja f : V1 → V2 uma função anti-C-linear. Temos que µAR BR (fR ) =
(µ0AB (f ))0R .
Demonstração. Seja µ0AB (f ) = [xhk + iyhk ]. Temos que:
f (ah ) = (xkh + iy kh ) ◦ bk = xkh bk − y kh (ibk )
f (iah ) = −if (ah ) = −y kh bk − xkh (ibk ).
Considerando a forma (124) de uma matriz anti-realificada, isso significa µAR BR (fR ) =
(µ0AB (f ))0R . 
5.2.7. Funções lineares, anti-lineares e R-lineares. Agora podemos en-
tender mais em detalhe a estrutura dos três espaços Hom(V1 , V2 ), Hom0 (V1 , V2 ) e
HomR (V1 , V2 ). Antes de tudo, segue imediatamente da definição de R-linearidade
que f : V1 → V2 é R-linear se, e somente se, fR : (V1 )R → (V2 )R é linear, portanto:
(126) HomR (V1 , V2 ) = Hom((V1 )R , (V2 )R ).
Sejam A = {a1 , . . . , an } uma base de V1 e B = {b1 , . . . , bm } uma base de V2 . Por
causa da igualdade (126), obtemos o isomorfismo:
'
µAR BR : HomR (V1 , V2 ) −→ M (2m, 2n; R).
Obviamente isso valeria para duas bases quaisquer de (V1 )R e (V2 )R , não necessari-
amente da forma AR e BR . Isso esclarece a estrutura do espaço HomR (V1 , V2 ), de
dimensão 4 · dim(V1 ) · dim(V2 ).
Consideremos a matriz J definida por (119). A denotamos por Jn quando
queremos especificar a dimensão. Resolvendo o exercı́cio 5.19 da seção 5.2.8, o leitor
demonstrará o seguinte lema e o relativo corolário.
Lema 5.2.28. Seja B ∈ M (2m, 2n; R).
• A matriz B é da forma (121) (equivalentemente, existe A ∈ M (m, n; C) tal
que B = AR ) se, e somente se, Jm B = BJn .
188 5. ESPAÇOS VETORIAIS COMPLEXOS

• A matriz B é da forma (124) (equivalentemente, existe A ∈ M (m, n; C) tal


que B = A0R ) se, e somente se, Jm B = −BJn .
Corolário 5.2.29. Seja fR : (V1 )R → (V2 )R uma função linear. Sejam A1 uma
base de V1 e A2 uma base de V2 .
• A função f : V1 → V2 é C-linear se, e somente se, µ(A1 )R ,(A2 )R (fR ) é uma ma-
triz da forma (121), isto é, existe A ∈ M (m, n; C) tal que µ(A1 )R ,(A2 )R (fR ) =
AR . Neste caso µAB (f ) = A.
• A função f : V1 → V2 é anti-C-linear se, e somente se, µ(A1 )R ,(A2 )R (fR ) é
uma matriz da forma (124), isto é, existe A ∈ M (m, n; C) tal que µ(A1 )R ,(A2 )R
(fR ) = A0R . Neste caso µ0AB (f ) = A0 .
Obtemos o seguinte resultado. As funções C-lineares e as anti-C-lineares formam
dois subconjuntos das R-lineares. Mais precisamente, temos os seguintes mergulhos
de espaços vetoriais reais:

(127) ιV1 V2 : Hom(V1 , V2 )R ,→ Hom((V1 )R , (V2 )R ) ι0V1 V2 : Hom0 (V1 , V2 )R ,→ Hom((V1 )R , (V2 )R ).

Considerando os mergulhos (122) e (125), fixando uma base A de V1 e uma base


B de V2 , obtemos os seguintes diagramas comutativos:

(µ0AB )R
Hom(V1 , V2 )R
(µAB )R
/ M (m, n; C)R Hom0 (V1 , V2 )R / M (m, n; C)R
(128)
_ _ _ _
ιV1 V2 ι ι0V V ι0
1 2
 µA B   µA B 
Hom((V1 )R , (V2 )R )
R R
/ M (2m, 2n; R). Hom((V1 )R , (V2 )R )
R R
/ M (2m, 2n; R).

O diagrama (128) pode ser completando através do isomorfismo ΦB ◦ do diagrama


(114) (v. exercı́cio 5.21 da seção 5.2.8). Ademais, já vimos que Hom(V1 , V2 ) ∩
Hom0 (V1 , V2 ) = {0} (v. exercı́cio 5.1 da seção 5.1.4). Como dim Hom(V1 , V2 )R =
dim Hom0 (V1 , V2 )R = 2nm e dim HomR (V1 , V2 )R = 4mn, isso implica que
(129) HomR (V1 , V2 )R = Hom(V1 , V2 )R ⊕ Hom0 (V1 , V2 )R .
Com isso fica clara a estrutura dos três espaços. Resolvendo o exercı́cio 5.23 da
próxima seção, o leitor encontrará explicitamente a decomposição de uma função
R-linear f conforme a soma direta (129).
5.2.8. Exercı́cios.
5.11. Seja J uma estrutura complexa no espaço vetorial real W . Verifique que WJ
satisfaz os axiomas de espaço vetorial complexo.
5.12. (1) Verifique que o endomorfismo de R2 , representado a respeito da base canônica
pela seguinte matriz, é uma estrutura complexa:
 
1 −2
J= .
1 −1
(2) Como a dimensão de R2 é 2, o espaço vetorial (R2 )J é complexo de dimensão 1,
portanto é isomorfo a C. Encontre um isomorfismo ϕ : (R2 )J → C.
5.2. REALIFICAÇÃO E ESTRUTURA COMPLEXA 189

5.13. Determine todas as estruturas complexas de R2 . Para cada uma delas, encontre
um isomorfismo ϕ : (R2 )J → C.
5.14. Sejam
   
1 −2 0 0 −3 −5 −6 4
1 −1 0 0 2 3 4 −2
J1 =   J2 =  .
0 −1 0 1 0 0 1 −1
1 −1 −1 0 0 0 2 −1
(1) Verifique que o endomorfismo v 7→ Ji v é uma estrutura complexa de R4 para
todo i ∈ {1, 2}.
(2) Para todo i ∈ {1, 2}, o espaço vetorial (R4 )Ji é complexo de dimensão 2, portanto
é isomorfo a C2 . Encontre um isomorfismo explı́cito ϕ : (R4 )Ji → C2 .
(3) Verifique que as funções f1 : C2 → (R4 )J1 , (x + iy, z + iw) 7→ (x + z − y − w, x +
z, x + z, x + z − y − w), e f2 : C2 → (R4 )J2 , (x + iy, z + iw) 7→ (x − 3y + z −
8w, 2y + z + 5w, 0, 0), são C-lineares.
5.15. Seja W um espaço vetorial real de dimensão par diferente de {0}. Demonstre
que existem infinitas estruturas complexas em W .
5.16. Seja S o espaço vetorial real formado pelas sequências (ai )i∈N , sendo ai ∈ R, e seja
S0 o espaço vetorial complexo formado pelas sequências (ai )i∈N , sendo ai ∈ C. Considere o
endomorfismo J : S → S definido por (a1 , a2 , a3 , a4 , . . .) 7→ (−a2 , a1 , −a4 , a3 , . . .). Demons-
tre que J é uma estrutura complexa em S e ache um isomorfismo explı́cito ϕ : SJ → S 0 .
5.17. Seja W um espaço vetorial real de dimensão par e diferente de {0}. Demonstre
que é possı́vel achar duas estruturas complexas J e J 0 em W que induzem orientações
opostas.
5.18. Dada uma famı́lia A = {a1 , . . . , ak } em um espaço vetorial complexo V , a anti-
realificação de A é a realificação de A como famı́lia em V , isto é, A0R := {a1 , −ia1 , . . . , ak ,
−iak }. Dadas uma base A e uma famı́lia B em V , demonstre que µ(A0R , BR ) = (µ(A, B))0R .
5.19. Demonstre o lema 5.2.28 e o relativo corolário.
5.20. Seja conj : Cn → Cn a conjugação.
• Aplicando o isomorfismo (118), verifique que a função ξ ◦ conj ◦ ξ −1 : R2n → R2n é
representada, em relação às bases canônicas, pela matriz C = (In )0R , isto é, pela
anti-realificação da matriz idêntica.
• Verifique que A0R = CAR para toda matriz A ∈ M (m, n; C);
• Sejam V um espaço vetorial complexo e A uma base de V . Seja ΦA : V → V
o isomorfismo descrito no corolário 5.1.7. Descreva explicitamente a realificação
(ΦA )R ;
• Demonstre que µ(AR , A0R ) = C. Isso generaliza o primeiro item do exercı́cio 5.20.
5.21. Utilizando os enunciados do exercı́cio 5.20, podemos completar o diagrama (128)
da seguinte maneira.
• Verifique que o seguinte diagrama comuta:
(ΦB ◦)R
Hom(V1 , V2 )R / Hom0 (V1 , V2 )R
_ _
ιV1 V2 ι0V
1 V2
 (ΦB )R ◦ 
Hom((V1 )R , (V2 )R ) / Hom((V1 )R , (V2 )R ).
190 5. ESPAÇOS VETORIAIS COMPLEXOS

• Verifique que o seguinte diagrama comuta:

M (m, n;
id / M (m, n; C)R
 C)R
_ _
ι ι0
 
M (2m, 2n; R)
C· / M (2m, 2n; R).

• Complete o diagrama (128) acrescentando o isomorfismo ΦB ◦ do diagrama (114).


5.22. Seja  
x11 + iy11 ··· x1m + iy1m
A=
 .. .. 
. . 
xn1 + iyn1 ··· xnm + iynm
uma matriz complexa. Definimos:
 
x11 y11 ··· x1m y1m
 y11 −x11 ··· y1m −x1m 
 
A00R :=  ... .. .. ..  .

 . . . 

xn1 yn1 ··· xnm ynm 
yn1 −xn1 ··· ynm −xnm
• Enuncie o lema e o corolário análogos ao 5.2.27 e ao 5.2.29, substituindo A0R por
A00R e Hom0 (V1 , V2 ) por Hom00 (V1 , V2 ).
• Reformule correspondentemente os exercı́cios 5.18, 5.20 e 5.21.
5.23. Dados dois espaços vetoriais compelxos V1 e V2 , por causa da cisão (129), toda
função R-linear f : V1 → V2 se decompõe de modo único na soma f = f1 + f2 , sendo f1
C-linear e f2 anti-C-linear. Escreva explicitamente f1 e f2 a partir de f .
5.24. Sejam V um espaço vetorial complexo e J0 a estrutura complexa induzida em
VR .
• Seja W ⊂ VR um subespaço vetorial real. Demonstre que W ⊂ V é um subespaço
vetorial complexo se, e somente se, J0 (W ) ⊂ W .
• Seja A ⊂ V uma famı́lia de vetores não vazia. Denotamos por hAi o subespaço
vetorial complexo gerado por A em V e denotamos por hhAii o subespaço veto-
rial real de VR gerado por A. Demonstre que, como conjuntos, hAi = hhAR ii,
portanto, como espaços vetoriais reais, hAiR = hhAR ii.
5.25. Sejam W1 e W2 espaços vetoriais reais e seja J2 uma estrutura complexa em W2 .
• Dado um conjunto X, seja F(X, W2 ) o conjunto das funções de X a W2 , com a
estrutura natural de espaço vetorial real definida por (f + g)(x) := f (x) + g(x) e
(λf )(x) := λ · f (x). Demonstre que a estrutura complexa J2 induz naturalmente
uma estrutura complexa J em F(X, W2 ).
• Demonstre que a estrutura complexa J, definida no item precedente para X =
W1 , se restringe a Hom(W1 , W2 ), tornando-o um subespaço vetorial complexo de
F(W1 , W2 ). Denotamos este espaço por HomC (W1 , W2 ).
• Fixadas uma base real A de W1 e uma base complexa B de (W2 )J2 , demonstre
que o isomorfismo µABR : Hom(W1 , W2 ) → M (m, 2n; R) induz uma estrutura
complexa em M (m, 2n; R). Descreva explicitamente esta estrutura complexa.
Denotamos por M C (m; 2n; R) o espaço vetorial complexo correspondente.
5.3. COMPLEXIFICAÇÃO E ESTRUTURA REAL 191

Sejam V1 e V2 espaços vetoriais complexos e sejam J0,V1 e J0,V2 as estruturas complexas in-
duzidas em (V1 )R e (V2 )R . Mesmo que possa parecer inatural, o espaço Hom((V1 )R , (V2 )R )
(equivalentemente, HomR (V1 , V2 )) possui uma estrutura complexa natural induzida por
J0,V2 , conforme o item precedente. Denotamos por HomC ((V1 )R , (V2 )R ) este espaço.
• Demonstre que Hom(V1 , V2 )R e Hom00 (V1 , V2 )R são subespaços vetoriais comple-
xos de HomC ((V1 )R , (V2 )R ), enquanto Hom0 (V1 , V2 )R é um subespaço vetorial
complexo de HomC ((V1 )R , (V2 )R ).
• Considerando os espaços do item precedente, construa os diagramas análogos aos
(128), mas formados por espaços vetoriais complexos.

5.3. Complexificação e estrutura real


Por enquanto partimos de um espaço vetorial complexo e obtivemos um espaço
vetorial real com uma estrutura adicional, ou seja, a estrutura complexa. Isso mos-
tra que a linguagem dos espaços vetoriais complexos pode ser expressa de modo
equivalente através da linguagem dos espaços vetoriais reais, acrescentando uma
informação que “se lembra” do produto externo por i, mas o descreve como um
automorfismo real. Agora vamos mostrar a construção dual, partindo de um espaço
vetorial real.

5.3.1. De Rn a Cn complexificando. Consideremos os espaços Rn e Cn , sendo


Rn ⊂ Cn (vamos subentender o mergulho correspondente). Cada vetor z ∈ Cn se
escreve de modo único da forma z = v + iw, sendo v, w ∈ Rn . Por isso, obtemos a
seguinte bijeção:
'
Φ : Rn × Rn −→ Cn
(130)
(v, w) 7→ v + iw.
O conjunto Rn × Rn herda de Rn uma estrutura de espaço vetorial real, definida
por (v 1 , w1 ) + (v 2 , w2 ) := (v 1 + v 2 , w1 + w2 ) e λ(v, w) := (λv, λw) para todo λ ∈ R.
Trata-se da soma direta Rn ⊕ Rn . É fácil verificar que (130) é um isomorfismo de
espaços vetoriais reais entre Rn ⊕ Rn e (Cn )R . Podemos tornar Rn ⊕ Rn um espaço
vetorial complexo, definindo o produto externo por i de modo que (130) se torne um
isomorfismo de espaços vetoriais complexos. É claro que a única escolha possı́vel é
i(v, w) := (−w, v); dessa maneira Φ(i(v, w)) = iΦ(v, w). Afinal, obtemos um espaço
vetorial complexo, que denotamos por (Rn )C , isomorfo a Cn , definido da seguinte
maneira:
• como conjunto, (Rn )C := Rn × Rn ;
• a soma é definida por (v 1 , w1 ) + (v 2 , w2 ) = (v 1 + v 2 , w1 + w2 );
• o produto externo é definido por (a + bi)(v, w) = (av − bw, aw + bv).
Agora podemos escrever o isomorfismo (130) da seguinte maneira:
'
Φ : (Rn )C −→ Cn
(131)
(v, w) 7→ v + iw.
192 5. ESPAÇOS VETORIAIS COMPLEXOS

Em particular, dim(Rn )C = dim Cn = n, portanto dim(Rn )C = dim(Rn ). Além


disso, fica definido o seguinte mergulho:
ι : Rn ,→ (Rn )C
(132)
v 7→ (v, 0),
que, composto com (131), se torna a inclusão Rn ⊂ Cn .
Observamos que uma base de Cn , como espaço vetorial complexo, e de Rn , como
espaço vetorial real, é a base canônica C = {e1 , . . . , en }. De fato, os vetores de Rn
são as combinações lineares reais de C, enquanto os vetores de Cn são as combinações
lineares complexas de C. Aplicando o isomorfismo (131), vemos que uma base de
(Rn )C é C 0 = {Φ−1 (e1 ), . . . , Φ−1 (en )}, isto é:
(133) C 0 = {(e1 , 0), . . . , (en , 0)}.
Logo, aplicando o mergulho (132), a base C de Rn é mandada na base C 0 de (Rn )C .
Enfim, no espaço Cn está definida a conjugação conj : Cn → Cn , z 7→ z̄, a qual
tem duas propriedades fundamentais:
• é uma função anti-linear;
• é uma involução, ou seja, conj2 = id.
O espaço Rn é conjunto dos pontos fixos da conjugação, ou seja, z ∈ Rn se, e somente
se, conj(z) = z. Isso mostra que Cn é canonicamente isomorfo à complexificação do
subespaço real formado pelos pontos fixos da conjugação. Aplicando o isomorfismo
(131), a conjugação se torna a seguinte função:
σ0 : (Rn )C → (Rn )C
(134)
(v, w) 7→ (v, −w).
Os pontos fixos de σ0 são os vetores da forma (v, 0), isto é, os elementos da imagem
de (132).
5.3.2. Confronto entre espaços complexos e espaços reais – Parte II.
Vamos mostrar que a construção precedente pode ser generalizada a qualquer espaço
vetorial real.
Definição 5.3.1. Seja W um espaço vetorial real. A complexificação de W é o
espaço vetorial complexo WC , definido da seguinte maneira:
• como conjunto, WC := W × W ;
• a soma é definida por (w1 , z 1 ) + (w2 , z 2 ) := (w1 + w2 , z 1 + z 2 );
• o produto externo é definido por (a + ib)(w, z) := (aw − bz, az + bw). ♦
Vamos estudar mais em detalhe a noção de complexificação. O seguinte lema
generaliza o fato que (133) é uma base de (Rn )C .
Lema 5.3.2. Se A = {a1 , . . . , an } for uma base de W , então A0 := {(a1 , 0), . . . ,
(an , 0)} é uma base de WC . Em particular, dim WC = dim W .
Demonstração. Seja (w1 , w2 ) ∈ WC . Pela definição do produto externo, te-
mos que (w1 , w2 ) = (w1 , 0)+i(w2 , 0). Sendo A uma base de W , temos que w1 = λk ak
e w2 = µk ak , logo (w1 , w2 ) = (λk + iµk )(ak , 0) ∈ hA0 i. Isso prova que hA0 i = WC .
5.3. COMPLEXIFICAÇÃO E ESTRUTURA REAL 193

Só falta provar que A0 é independente. Seja z k (ak , 0) = (0, 0), sendo z k ∈ C. Seja
z k = xk + iy k , sendo xk , y k ∈ R. Então 0 = (xk + iy k )(ak , 0) = (xk ak , y h ah ), por-
tanto xk ak = 0 e y h ah = 0. Sendo A uma base temos que x1 = · · · = xn = 0 e
y1 = · · · = yn = 0, logo z1 = · · · = zn = 0. 

Fica definida a seguinte função R-linear injetora, que generaliza (132):


ι : W ,→ WC
(135)
w 7→ (w, 0).
A imagem de W é um subespaço vetorial real de WC . O lema 5.3.2 afirma que (135)
manda uma base de W em uma base de WC .
Observação 5.3.3. Considerando como é definido o produto externo de WC ,
temos que (w1 , w2 ) = (w1 , 0) + i(w2 , 0) = ι(w1 ) + iι(w2 ). Identificando a imagem de
(135) com W (ou seja, subentendendo ι), podemos denotar um par da forma (w, 0)
simplesmente por w, portanto o par (w1 , w2 ) fica denotado por w1 + iw2 . Isso torna
clara a ideia de complexificação: o espaço WC se obtém a partir de W , acrescentando
a possibilidade de multiplicar um vetor por i. Com esta notação, o lema 5.3.2 afirma
que, se A for uma base (real) de W , então a mesma A é uma base (complexa) de
WC , exatamente como a base canônica é uma base real de Rn e uma base complexa
de Cn ao mesmo tempo. ♦
Também a função (134), que corresponde à conjugação de Cn , pode ser genera-
lizada. De fato, dado um espaço vetorial real W , o espaço complexo WC , por ser
a complexificação de um espaço real, herda uma estrutura a mais, que consiste na
seguinte involução anti-linear:
σ0 : WC → WC
(w1 , w2 ) 7→ (w1 , −w2 ).

Seja fix(σ0 ) o conjunto dos pontos fixos de σ0 . É fácil verificar que fix(σ0 ) contém
os vetores da forma (w, 0), ou seja, os elementos da imagem do mergulho (135). Por
isso se trata de um subespaço real de WC , naturalmente isomorfo a W , através do
isomorfismo (135). Vamos generalizar tudo isso a qualquer espaço vetorial complexo.
Definição 5.3.4. Seja V um espaço vetorial complexo. Uma estrutura real em
V é uma involução anti-linear, ou seja, uma função anti-linear σ : V → V tal que
σ 2 = id. Usamos a seguinte notação:
fix(σ) := {v ∈ V : σ(v) = v}. ♦

É imediato verificar que fix(σ) é um subespaço vetorial real de V (equivalen-


temente, é um subespaço vetorial de VR ). Fica definido o seguinte isomorfismo
canônico, que generaliza (131):
ϕ : fix(σ)C → V
(136)
(v 1 , v 2 ) 7→ v 1 + iv 2 .
194 5. ESPAÇOS VETORIAIS COMPLEXOS

O fato que se trate de um isomorfismo segue do fato que todo vetor de V pode ser
escrito da seguinte forma:
(137) v = 21 (v + σ(v)) + i 2i1 (v − σ(v))
sendo 12 (v + σ(v)), 2i1 (v − σ(v)) ∈ fix(σ). Por isso, está bem definido o morfismo
inverso:
ϕ−1 (v) = 12 (v + σ(v)), 2i1 (v − σ(v)) .


Observação 5.3.5. A expressão (137) generaliza o fato que todo z ∈ Cn se


escreve da forma v + iw, sendo v, w ∈ Rn . De fato, v = 12 (z + z̄) e w = 2i1 (z − z̄). ♦
Observação 5.3.6. Usando a notação da observação 5.3.3, o espaço fix(σ)C se
identifica completamente com V , isto é, ϕ(v 1 + iv 2 ) = v 1 + iv 2 . ♦
Acabamos de construir as duas seguintes funções:
• dado um espaço real W , obtemos o espaço complexo com estrutura real
(WC , σ0 );
• dado um espaço complexo com estrutura real (V, σ), obtemos o espaço real
fix(σ).
Por isso, obtemos a seguinte correspondência:
  W 7→ (WC ,σ0 )  
Espaços vetoriais & Espaços vetoriais complexos
(138) f .
reais com estrutura real
fix(σ) ←[ (V,σ)

As duas funções Φ : W 7→ (WC , σ0 ) e Ψ : (V, σ) 7→ fix(σ) são duas bijeções que, neste
caso, não são precisamente inversas entre si, mas o são a menos de isomorfismo
canônico. Em particular, isso significa o seguinte.
• Ψ ◦ Φ(W ) é canonicamente isomorfo a W , dado que temos o isomorfismo
canônico ι : W → fix(σ0 ), w 7→ (w, 0).
• Φ ◦ Ψ(V, σ) é canonicamente isomorfo a (V, σ) no seguinte sentido. Temos
que Φ◦Ψ(V, σ) = (fix(σ)C , σ0 ) e temos o isomorfismo canônico ϕ : fix(σ)C →
V , definido por (136), que comuta com as estruturas reais, ou seja, ϕ ◦ σ0 =
σ ◦ ϕ. Equivalentemente, o seguinte diagrama comuta:
σ0
fix(σ)C / fix(σ)C
ϕ ϕ
 
V
σ / V.
De fato, ϕ(σ0 (v, w)) = ϕ(v, −w) = v − iw = σ(v) − iσ(w) = σ(v + iw) =
σ(ϕ(v, w)). Por isso podemos afirmar que os pares (fix(σ)C , σ0 ) e (V, σ) são
canonicamente isomorfos.
A correspondência (138) se estende também às funções lineares. Partindo de dois
espaços reais W1 e W2 , uma função linear f : W1 → W2 se estende naturalmente à
função fC : (W1 )C → (W2 )C definida por (w, z) 7→ (f (w), f (z)). Usando a notação
da observação 5.3.3, isso significa que f (w + iz) = f (w) + if (z), portanto fica claro
5.3. COMPLEXIFICAÇÃO E ESTRUTURA REAL 195

que estamos estendendo f por C-linearidade. Observamos que, nesse caso, f e


fC são distintas também como funções entre conjuntos, pois a complexificação de
W , como conjunto, é W × W . Podemos verificar facilmente que fC é C-linear, pois
fC (i(v, w)) = fC (−w, v) = (−f (w), f (v)) = ifC (v, w). Obtemos o seguinte mergulho
de espaços vetoriais reais:
j : Hom(W1 , W2 ) → Hom((W1 )C , (W2 )C )R
(139)
f 7→ fC .
Observamos também que, se σ0,1 e σ0,2 forem as estruturas reais em (W1 )C e (W2 )C ,
temos que fC (σ0,1 (w + iz)) = fC (w − iz) = fC (w) − ifC (z) = σ0,2 (fC (w) + ifC (z)) =
σ0,2 (fC (w + iz)), portanto fC comuta com as estruturas reais. Vale também a volta,
ou seja, uma função C-linear g : (W1 )C → (W2 )C pertence à imagem do mergulho
(139) se, e somente se, g ◦ σ0,1 = σ0,2 ◦ g, como mostra o seguinte lema.
Lema 5.3.7. Sejam W1 e W2 dois espaços vetoriais reais e sejam σ0,1 e σ0,2
as estruturas reais correspondentes em (W1 )C e (W2 )C . Denotamos por ι1 : W1 ,→
(W1 )C e ι2 : W2 ,→ (W2 )C os mergulhos (135). Seja g : (W1 )C → (W2 )C uma função
C-linear. As seguintes condições são equivalentes:
(i) g pertence à imagem do mergulho (139);
(ii) g(ι1 (W1 )) ⊂ ι2 (W2 ) (usando a notação da observação 5.3.3, isso significa que
g(W1 ) ⊂ W2 , ou seja, g se restringe a uma função de W1 a W2 );
(iii) g comuta com as estruturas reais, ou seja, g ◦ σ0,1 = σ0,2 ◦ g.
Se valerem essas condições, então g = fC , sendo f : W1 → W2 a função tal que g ◦
ι1 = ι2 ◦f (usando a notação da observação 5.3.3, isso significa que f = g|W1 : W1 →
W2 ).
Demonstração. (i) ⇒ (ii) Se g = fC , por definição g(w1 , 0) = fC (w1 , 0) =
(f (w1 ), 0), logo g(ι1 (W1 )) ⊂ ι2 (W2 ). Enfim, a identidade g(w1 , 0) = (f (w1 ), 0)
equivale à g ◦ ι1 (w1 ) = ι2 ◦ f (w1 ). (ii) ⇒ (i) Seja f definida como no enunciado
do lema. Sendo g uma função C-linear, temos que g(w1 + iw2 ) = g(w1 ) + ig(w2 ) =
f (w1 ) + if (w2 ) = fC (w1 + iw2 ), logo g = fC . (ii) ⇒ (iii) Temos que g(σ0,1 (w1 +
?
iw2 )) = g(w1 − iw2 ) = g(w1 ) − ig(w2 ) = σ0,2 (g(w1 ) + ig(w2 )) = σ0,2 (g(w1 + iw2 )),
portanto g ◦ σ0,1 = σ0,2 ◦ g. Na igualdade ‘?’ usamos o fato que g(w1 ), g(w2 ) ∈ W2 .
(iii) ⇒ (ii) Fixado w1 ∈ W1 , temos que σ0,2 (g(w1 )) = g(σ0,1 (w1 )) = g(w1 ), logo
g(w1 ) ∈ fix(σ0,2 ) = W2 . 
O lema 5.3.7 pode ser enunciado afirmando que as funções C-lineares que esten-
dem as reais são as que tornam comutativo o seguinte diagrama:
g
(W1 )C / (W2 )C
σ0,1 σ0,2
 g 
W1 / W1 .
O lema 5.3.7 foi formulado partindo de dois espaços reais e complexificando-
os. Podemos formulá-lo de modo equivalente a partir de dois espaços complexos
com estrutura real. De fato, dados (V1 , σ1 ) e (V2 , σ2 ), o mergulho (139) pode ser
196 5. ESPAÇOS VETORIAIS COMPLEXOS

escrito da seguinte maneira, denotando por ϕ1 : fix(σ1 )C → V1 e ϕ2 : fix(σ2 )C → V2


os isomorfismos canônicos (136):
j : Hom(fix(σ1 ), fix(σ2 )) → Hom(V1 , V2 )R
(140)
f 7→ ϕ2 ◦ fC ◦ ϕ−1
1 .

Lema 5.3.8. Sejam V1 e V2 dois espaços vetoriais complexos com estruturas


reais σ1 e σ2 . Seja g : V1 → V2 uma função linear. As seguintes condições são
equivalentes:
(i) g pertence à imagem do mergulho (140);
(ii) g se restringe a uma função de fix(σ1 ) a fix(σ2 ), ou seja, g(fix(σ1 )) ⊂ fix(σ2 );
(iii) g comuta com as estruturas reais, ou seja, g ◦ σ1 = σ2 ◦ g.
Se valerem essas condições, então g = ϕ2 ◦ fC ◦ ϕ−1 1 , sendo f = g|fix(σ1 ) : fix(σ1 ) →
fix(σ2 ).
O lema 5.3.8 pode ser enunciado afirmando que as funções C-lineares que esten-
dem as reais são as que tornam comutativo o seguinte diagrama:
g
V1 / V2
σ1 σ2
 g 
V1 / V1 .
Observação 5.3.9. Para o leitor que conheça a linguagem das categorias, pode-
mos considerar a categoria dos espaços vetoriais reais, cujos morfismos são as funções
R-lineares, e a dos espaços vetoriais complexos com estrutura real, cujos morfismos
são as funções C-lineares que comutam com as estruturas reais. Acabamos de provar
que as duas bijeções, que aparecem em (138), são equivalências (inversas entre si)
entre estas duas categorias. ♦
5.3.3. Confronto entre realificação e complexificação. As duas operações
de complexificação e realificação não são uma inversa da outra, dado que uma dobra
a dimensão e a outra a deixa invariada. O seguinte lema mostra que, dado um espaço
vetorial real W , o espaço (WC )R pode ser descrito facilmente a partir de W .
Lema 5.3.10. Seja W um espaço vetorial real. Então (WC )R ' W ⊕ W canoni-
camente.
Demonstração. Como conjunto (WC )R = W × W , portanto podemos consi-
derar a identidade id : (WC )R → W × W , a qual, obviamente, é bijetora. Só devemos
demonstrar que é linear, o que é óbvio, pois a soma é definida componente por com-
ponente em ambos os casos e, a respeito do produto externo, quando o coeficiente
for real multiplica ambas as componentes nos dois casos. 
Dado um espaço vetorial complexo V , o espaço (VR )C não é canonicamente iso-
morfo a V ⊕ V . Isso é devido ao fato que, realificando V , se perde a informação
relativa à estrutura complexa. De fato, em (VR )C temos que i(v, w) = (−w, v),
enquanto em V ⊕ V temos que i(v, w) = (iv, iw), sendo iv e iw os produtos exter-
nos por i em V . Observamos que, apesar do que acabamos de afirmar, (CnR )C '
5.3. COMPLEXIFICAÇÃO E ESTRUTURA REAL 197

(R2n )C ' C2n . Contudo, isso é devido ao fato que Cn ' RnC ; neste caso, pelo lema
5.3.10, ((WC )R )C ' (W ⊕ W )C ' WC ⊕ WC , mas isso não vale para um espaço V
genérico. Contudo, é possı́vel recuperar a informação sobre a estrutura complexa
de V em (VR )C . Para isso, temos que considerar a estrutura complexa J0 em VR
e estendê-la a (VR )C por C-linearidade. Quando introduziremos a noção de auto-
espaço, veremos que o auto-espaço de (J0 )C relativo a i é isomorfo a V , através do
isomorfismo v 7→ v − iJ0 (v).

5.3.4. Pull-back e push-forward. Sejam (V1 , σ1 ) um espaço vetorial com-


plexo com uma estrutura real e f : V1 → V2 um isomorfismo. Fica definida uma
estrutura real σ2 em V2 , induzida pelo isomorfismo f , da seguinte maneira:
σ2 := f ◦ σ1 ◦ f −1 .
A estrutura σ2 é dita push-forward de σ1 através de f e usamos a notação σ2 = f∗ σ1 .
Analogamente, sejam (V2 , σ2 ) um espaço vetorial complexo com uma estrutura
real e f : V1 → V2 um isomorfismo. Fica definida uma estrutura real σ1 em V1 ,
induzida pelo isomorfismo f , da seguinte maneira:
σ1 := f −1 ◦ σ2 ◦ f.
A estrutura σ1 é dita pull-back de σ1 através de f e usamos a notação σ1 = f ∗ σ2 .
Vale a observação análoga à 5.2.17 em relação às estruturas reais. Enfim, como
todo espaço vetorial real de dimensão n é isomorfo a Rn , é fácil verificar que toda
estrutura real em um espaço vetorial complexo é o pull-back da conjugação de Cn
através de um isomorfismo. Em particular, dadas duas estruturas reais no mesmo
espaço complexo V , existe um automorfismo de V que manda uma na outra. Vamos
demostrar rigorosamente estas afirmações.
Lema 5.3.11. Seja (V, σ) um espaço vetorial complexo de dimensão n com es-
trutura real. Existe um isomorfismo f : V → Cn tal que σ = f ∗ conj.
Demonstração. Como dim(fix(σ)) = n, existe um isomorfismo de espaços
vetoriais reais ϕ : fix(σ) → Rn . O isomorfismo complexo ϕC : V → Cn comuta com
σ e conj, o que equivale ao fato que σ = f ∗ conj. 
Corolário 5.3.12. Seja V um espaço vetorial complexo e sejam σ1 e σ2 duas
estruturas reais em W . Existe um automorfismo f : V → V tal que σ2 = f ∗ σ1 .
5.3.5. Complexificação de uma matriz real. Consideremos o espaço veto-
rial real M (n, m; R). É fácil construir um isomorfismo M (n, m; R)C ' M (n, m; C),
identificando (A, B) ∈ M (n, m; R)C com A + iB ∈ M (n, m; C). Sejam W1 e W2
espaços vetoriais reais. Fica definido o espaço real Hom(W1 , W2 ), cuja complexi-
ficação Hom(W1 , W2 )C é naturalmente isomorfa a Hom((W1 )C , (W2 )C ). De fato,
estendendo por C-linearidade o mergulho (140), fica definido o mergulho jC e, como
os dois espaços têm a mesma dimensão, esse mergulho é um isomorfismo:
'
jC : Hom(W1 , W2 )C −→ Hom((W1 )C , (W2 )C )
(141)
(f, g) 7→ fC + igC .
198 5. ESPAÇOS VETORIAIS COMPLEXOS

Sejam A = {a1 , . . . , an } uma base (real) de W1 e B = {b1 , . . . , bm } uma base (real)


de W2 . Um homomorfismo f : W1 → W2 fica representado pela matriz A = µAB (f ).
Conforme o lema 5.3.2, consideremos as bases (complexas) A0 = {(a1 , 0), . . . , (an , 0)}
de (W1 )C e B 0 = {(b1 , 0), . . . , (bm , 0)} de (W2 )C . O homomorfismo fC : (W1 )C →
(W2 )C fica representado pela mesma matriz A = µAB (f ), pensada como matriz
complexa, conforme a identificação natural M (m, n; R)C ' M (m, n; C). Por isso
obtemos o seguinte diagrama:
(µAB )C
(142) Hom(W1 , W2 )C / M (m, n;
_  R)C
_
' '
 µA0 B0 
Hom((W1 )C , (W2 )C ) / M (m, n; C).

5.3.6. Exercı́cios.
5.26. (1) Verifique que a seguinte função σ : C → C é uma estrutura real:
σ(z) := iz̄.
(2) Como a dimensão de C é 1, o espaço vetorial fix(σ) é real de dimensão 1, portanto é
isomorfo a R. Ache um isomorfismo explı́cito ϕ : fix(σ) → R.
5.27. Determine explicitamente todas as estruturas reais de C. Para cada uma delas,
ache um isomorfismo explı́cito ϕ : fix(σ) → R.
5.28. Sejam
σ1 : C2 → C2 σ2 : C2 → C2
(z, w) 7→ (z̄ − 2iw̄, w̄) (z, w) 7→ (w̄, z̄).
(1) Verifique que σi é uma estrutura real de C2 para todo i ∈ {1, 2}.
(2) Para todo i ∈ {1, 2}, o espaço vetorial fix(σ) é real de dimensão 2, portanto é
isomorfo a R2 . Encontre um isomorfismo explı́cito ϕi : fix(σi ) → R2 .
(3) Verifique que as funções f1 : C2 → C2 , (z, w) 7→ (z − 2w + iz, w − z − iw) e
f2 : C2 → C2 , (z, w) 7→ (z + iw, w − iz) são a extensão C-linear de uma função
R-linear gi : fix(σi ) → fix(σi ).
5.29. Seja V um espaço vetorial complexo diferente de {0}. Demonstre que existem
infinitas estruturas reais em V .
5.30. Seja V um espaço vetorial complexo.
• Demonstre que, se σ : V → V for uma estrutura real, então σ : V → V é também
uma estrutura real.
• Como fix(σ) é o mesmo nos dois casos, existe um isomorfismo canônico ϕσ : V →
V que comuta com as estruturas reais. Ache ϕσ .
5.31. Seja V um espaço vetorial complexo. Sejam σ1 e σ2 duas estruturas reais em V .
Demonstre que, se fix(σ1 ) = fix(σ2 ), então σ1 = σ2 .
5.32. (1) Seja V um espaço vetorial complexo. Demonstre as seguintes afirmações.
• O isomorfismo ΦA , descrito no corolário 5.1.7, é uma estrutura real de V .
5.3. COMPLEXIFICAÇÃO E ESTRUTURA REAL 199

• Se σ : V → V for uma estrutura real e A for uma base de fix(σ) (logo também de
V ), então, como função entre conjuntos, σ = ΦA . Em particular, uma estrutura
real σ em V é equivalente ao isomorfismo complexo ΦA : V → V tal que Φ2A =
idV .
• Sejam A e B duas bases de V . Os seguintes fatos são equivalentes:
(i) hhAii = hhBii, usando a notação do exercı́cio 5.24;
(ii) µ(A, B) é uma matriz real;
(iii) ΦA = ΦB .
5.33. Seja V = C 0 (R; C) o espaço vetorial complexo formado pelas funções contı́nuas
de R a C. Considere o endomorfismo σ : VR → VR , (σ(f ))(x) := f (x). Demonstre que σ
é uma estrutura real em V tal que fix(σ) ' C 0 (R) canonicamente, sendo C 0 (R) o espaço
vetorial real das funções contı́nuas de R a R.
5.34. Seja f : W1 → W2 uma função R-linear e seja fC : (W1 )C → (W2 )C a sua extensão
C-linear natural. Demonstre que Ker(fC ) ' (Kerf )C e Im(fC ) ' (Imf )C canonicamente.
5.35. Sejam V1 e V2 espaços vetoriais complexos com estrutura real respetivamente
σ1 e σ2 . Demonstre que σ1 e σ2 induzem uma estrutura real σ em Hom(V1 , V2 ) tal que
fix(σ) = Hom(fix(σ1 ), fix(σ2 ).
CAPı́TULO 6

Produto hermitiano

No capı́tulo 4 estudamos em detalhe as noções de norma, produto interno e


orientação em um espaço vetorial real. Neste capı́tulo vamos introduzir os conceitos
análogos em um espaço vetorial complexo.

6.1. Norma e distância


Daqui em diante denotaremos por V um espaço vetorial complexo. A noção de
distância em V é idêntica à mesma noção no caso real, dado que a definição 4.1.13
foi formulada independentemente da estrutura de espaço vetorial. Em relação à
norma, obviamente se torna necessário considerar a soma e o produto externo, mas
a definição 4.1.3 pode ser aplicada sem variação ao contexto complexo.
Definição 6.1.1. Uma norma em V é uma função
k · k : V → R≥0
que satisfaz as seguintes propriedades, para todos v, w ∈ V e λ ∈ C:
(N1) kvk = 0 se, e somente se, v = 0;
(N2) kλvk = |λ| · kvk;
(N3) kv + wk ≤ kvk + kwk (desigualdade triangular).
Um espaço vetorial complexo normado é um par (V, k · k), formado por um espaço
vetorial complexo V e uma norma k · k em V . ♦
Claramente, no enunciado da propriedade (N2), o módulopde λ tem que ser
entendido como o módulo de um número complexo, isto é, |λ| = (Re λ)2 + (Im λ)2 .
Enfim, como no caso real, uma norma em V induz a distância d(v, w) := kv − wk;
se uma distância for induzida por uma norma, esta norma é única, mas, em geral,
uma distância em V não é induzida por nenhuma norma.
6.1.1. Norma euclidiana e outros exemplos. Como no caso real, o exemplo-
padrão é constituı́do pela norma euclidiana, que agora vamos estudar.
Definição 6.1.2. Seja v = (v1 , . . . , vn )T ∈ Cn . A norma euclidiana de v é
definida por:
p
(143) kvk := |v1 |2 + · · · + |vn |2 .
A distância induzida por esta norma é dita distância euclidiana. ♦
Lema 6.1.3. A norma euclidiana k · k : Cn → R≥0 satisfaz as propriedades (N1)–
(N3) da definição 6.1.1.
201
202 6. PRODUTO HERMITIANO

Demonstração - Método I. (1) É claro que kvk = 0 se, e somente se, |v1 |2 +
· · · + |vn |2 = 0. Isso ocorre se,pe somente se, v1 = · · · =p
vn = 0, ou seja, v = 0. (2)
Pela fórmula (143), kλvk = |λv1 | + · · · + |λvn | = |λ2 |(|v1 |2 + · · · + |vn |2 ) =
2 2

|λ| · kvk. (3) Mostraremos a prova em seguida, a partir da desigualdade de Cauchy-


Schwartz complexa (fórmula (162)). 
Podemos demonstrar o lema 6.1.3 de outra maneira equivalente, que introduzirá
o confronto entre o caso real e caso complexo.
Notação 6.1.4. Dado um vetor v = (a1 + ib1 , . . . , an + ibn )T ∈ Cn , aplicando o
isomorfismo (118) definimos v R := ξ(v) = (a1 , b1 , . . . , an , bn )T ∈ R2n . Logo, (iv)R =
J (v R ). ♦
É fácil verificar que:
(144) kvk = kv R k,
sendo a norma do lado esquerdo a euclidiana em Cn e a do lado direito a euclidiana
em R2n . Isso implica que d(v, w) = d(v R , wR ), sendo d a distância euclidiana em
ambos os casos.
Lema 6.1.5. A estrutura complexa canônica J : R2n → R2n é ortogonal e an-
tissimétrica em relação ao produto interno canônico. Em particular (sendo antis-
simétrica), hv, J vi = 0 para todo v ∈ R2n .
Demonstração. (1) Para todos v, w ∈ R2n temos que
hJ v, J wi = h(−v2 , v1 , . . . , −v2n , v2n−1 ), (−w2 , w1 , . . . , −w2n , w2n−1 )i
= v2 w2 + v1 w1 + · · · + vn wn + vn−1 wn−1 = hv, wi.
Equivalentemente, podemos observar que a matriz representativa (119) de J , a
respeito da base canônica (que é ortonormal), é ortogonal, dado que J (J T ) =
J (−J ) = −J 2 = I2n . (2) Sendo J ortogonal, hJ v, wi = hJ 2 v, J wi = −hv, J wi.
Equivalentemente, podemos observar que a matriz representativa (119) de J , a
respeito da base canônica (que é ortonormal), é antissimétrica. Enfim, podemos
também verificar a antissimetria com a conta direta, como fizemos em relação à
ortogonalidade. 
Lema 6.1.6. A norma euclidiana k · k : Cn → R≥0 satisfaz as propriedades (N1)–
(N3) da definição 6.1.1.
Demonstração - Método II. (1) Segue imediatamente da igualdade (144)
e da propriedade (N1) da norma euclidiana real. (2) Seja λ = a + bi ∈ C, sendo
a, b ∈ R. Pelo lema 6.1.5 temos que J v R ⊥v R e kJ v R k = kv R k para todo v ∈ Cn .
Portanto, aplicando a fórmula (87), temos que kλvk2 = kav R + bJ v R k2 = a2 kv R k2 +
b2 kJ v R k2 = (a2 + b2 )kv R k2 = |λ|2 kvk2 . (3) Segue imediatamente da igualdade (144)
e da propriedade (N3) da norma euclidiana real. 
Podemos mostrar outros exemplos de normas em espaços complexos, análogos
aos 4.1.6–4.1.9. A única variação consiste no fato que é necessário considerar o
módulo das entradas do vetor, mesmo se forem elevadas a um exponente inteiro par,
dado que são números complexos.
6.1. NORMA E DISTÂNCIA 203

Exemplo 6.1.7. No espaço C[x], formado pelos polinômios complexos em uma variável,
a seguinte função é uma norma:
p
kan xn + · · · + a0 k := |an |2 + · · · + |a0 |2 .
A demonstração das propriedades (N1)–(N3) é análoga à relativa à norma euclidiana de
Cn , mesmo se C[x] não é finitamente gerado. ♦
Exemplo 6.1.8. No espaço M (n, m; C), formado pelas matrizes complexas de n linhas
e m colunas, a seguinte função é uma norma:
v
u n X
m
uX

[aij ] := t |aij |2 .
i=1 j=1

Também neste caso a demonstração das propriedades (N1)–(N3) é análoga à relativa à


norma euclidiana de Cnm . ♦
Exemplo 6.1.9. As seguintes funções são normas em C3 :
p
kvk := 5|v1 |2 + 3|v2 |2 + 8|v3 |2
p
kvk := |v1 |2 + |v2 |2 + 10|v3 |2
p
kvk := 3|v1 |2 + 3|v2 |2 + 2|v3 |2 ,

sendo v = (v1 , v2 , v3 )T . A demonstração das propriedades (N1) e (N2) é análoga à do lema


6.1.3; também a propriedade (N3) será demonstrada de modo análogo, quando daremos
a definição geral de produto hermitiano (v. exemplo 6.2.14). ♦
Exemplo 6.1.10. As seguintes funções são normas em Cn , sendo k ≥ 1 (não é ne-
cessário que k seja inteiro):
1
(145) kvkk := |v1 |k + · · · + |vn |k k
kvk∞ := max{|v1 |, . . . , |vn |}.
A demonstração das propriedades (N1) e (N2) é análoga à do lema 6.1.3; a demonstração
da propriedade (N3) será mostrada no capı́tulo 8. ♦

A fórmula (74) continua a valer no caso complexo e pode ser demonstrada como
no caso real ou aplicando (144).

6.1.2. Confronto entre o caso real e o caso complexo – Parte I. Seja


(V, k · k) um espaço vetorial complexo normado. A mesma norma k · k, pensada
como função de VR a R≥0 , é uma norma real. De fato, as propriedades (N1) e (N3)
são idênticas nos dois casos. A propriedade (N2) vale para todo λ ∈ C, logo, em
particular, vale para todo λ ∈ R. Ademais, a estrutura complexa J0 , induzida em
VR , respeita a norma, dado que kJ0 (v)k = kivk = |i| · kvk = kvk. Em geral, damos
a seguinte definição.
Definição 6.1.11. Seja (W, k · k) um espaço vetorial real normado. Uma estru-
tura complexa J em W é dita compatı́vel com a norma se kJ(w)k = kwk para todo
w ∈ W . Equivalentemente, a norma é dita compatı́vel com a estrutura complexa. ♦
204 6. PRODUTO HERMITIANO

Obtemos a seguinte função injetora:


   
 Espaços vetoriais   (V, k · k) 7→  Espaços vetoriais reais 
 /
(146) complexos normados com estrutura .
(VR , k · k, J0 ) 
normados complexa compatı́vel
  

O fato que (146) seja injetora segue imediatamente do fato que a norma, como
função entre conjuntos, é a mesma nos dois casos. Agora é natural pensar que se
trate também de uma função sobrejetora, mas infelizmente isso não vale. O problema
está na propriedade (N2), como o leitor verificará resolvendo o exercı́cio 6.5 da seção
6.1.4. Isso significa que, ao nı́vel das normas, não há uma simetria completa entre
o caso real e o caso complexo. Podemos tentar achar uma motivação de fundo
para esta falta de simetria da seguinte maneira. Uma norma, apesar de precisar
da estrutura linear para ser definida, não é uma função linear (contrariamente ao
produto interno, que é linear nas duas entradas). Por isso, a compatibilidade com
a norma não consegue apreender uma informação suficiente do ponto de vista da
linearidade, como o leitor já verificou resolvendo os exercı́cios 4.33 e 4.35 da seção
4.4.4. Neste caso, o fato que kJ(w)k = kwk, unido à propriedade (N2) para todo
λ ∈ R, não garante que valha (N2) para todo λ ∈ C.
6.1.3. Confronto entre o caso real e o caso complexo – Parte II. Seja
(W, k · k) um espaço vetorial real normado. Podemos estender naturalmente a norma
à complexificação de W da seguinte maneira (v. exercı́cio 6.6 da seção 6.1.4):
k · kC : WC → R≥0
(147) p
k(v, w)kC := kvk2 + kwk2 .
Ademais, seja σ0 a estrutura real induzida em WC . Temos que kσ0 (v, w)kC =
k(v, −w)kC = k(v, w)kC . Em geral, damos a seguinte definição.
Definição 6.1.12. Seja (V, k · k) um espaço vetorial complexo normado. Uma
estrutura real σ em V é dita compatı́vel com a norma se kσ(v)k = kvk para todo
v ∈ V . Equivalentemente, a norma é dita compatı́vel com a estrutura real. ♦
Obtemos a seguinte função injetora:
   
 Espaços vetoriais   (W, k · k) 7→  Espaços vetoriais complexos 
 /
(148) reais normados com estrutura .
 (WC , k · kC , σ0 ) 
normados real compatı́vel
 

Também neste caso não se trata de uma função sobrejetora, como o leitor verificará
resolvendo o exercı́cio 6.8 da próxima seção.
6.1.4. Exercı́cios.
6.1. Calcule a distância euclidiana entre (i, 0, 1) e (1, 2 − i, 1 − i) em C3 .
6.2. Calcule a distância entre (i, 0, 1) e (1, 2 − i, 1 − i) (os mesmos do exercı́cio prece-
dente) em C3 , sendo a distância induzida pela norma kvk∞ := max{|v1 |, |v2 |, |v3 |}.
6.3. Calcule a distância entre os polinômios p(x) = 2ix3 −x+(1+i) e q(x) = ix3 +x2 +1
em C[x] com a norma do exemplo 6.1.7.
6.2. PRODUTO HERMITIANO 205

6.4. Encontre uma norma em R2 não compatı́vel com a estrutura complexa canônica.
6.5. Verifique que as normas k · kk , para k 6= 2, e k · k∞ em R2n são compatı́veis com a
estrutura complexa canônica, mas não induzem uma norma no espaço complexo (R2n )J ,
isomorfo a Cn através de (118).
6.6. Verifique que (147) é efetivamente uma norma.
6.7. (1) Demonstre que toda norma em C é compatı́vel com a conjugação. (2) Encontre
uma norma em C2 não compatı́vel com a conjugação.
6.8. Verifique que as normas k · kk , para k 6= 2, e k · k∞ em Cn são compatı́veis com a
conjugação, mas, para n ≥ 2, não são induzidas pela restrição a Rn através de (147).
6.9. Dado um espaço vetorial complexo normado V , considere a distância d0 definida
analogamente à do exercı́cio 4.3 da seção 4.1.1. Demonstre que d0 não é induzida por
nenhuma norma.
6.10. Dado um espaço vetorial complexo normado V , considere a distância d definida
analogamente à do exercı́cio 4.4 da seção 4.1.1. Demonstre que d não é induzida por
nenhuma norma.

6.2. Produto hermitiano


A definição (75) de produto interno canônico pode ser extensa ao caso complexo
sem variações. Obtemos a seguinte função bilinear e simétrica h · , · i : Cn × Cn → C:
hv, wi = v1 w1 + · · · + vn wn .
Todavia, essa função não é definida positiva, pois, em geral, hv, vi nem é um número
real. Em particular, hv, vi, assim definido, não coincide com kvk2 . As funções
simétricas e bilineares são muito importantes também no caso complexo e as estuda-
remos em detalhe no capı́tulo 8, porém não podem ser consideradas a noção análoga
à de produto escalar. Para achar esta noção, lembramos que z̄z = |z|2 para todo
z ∈ C, portanto a fórmula (143) pode ser escrita na forma kvk2 = v̄1 v1 + · · · + v̄n vn .1
Isso sugere a seguinte definição:
Definição 6.2.1. Sejam v = (v1 , . . . , vn )T , w = (w1 , . . . , wn )T ∈ Cn . O produto
hermitiano canônico entre v e w é definido por:
(149) hv, wi := v̄1 w1 + · · · + v̄n wn .
Se denota também por v • w. ♦
Notação 6.2.2. Dada uma matriz A ∈ M (n, m; C), denotamos por A† a matriz
transposta e conjugada de A, ou seja, A† = ĀT . ♦
Observação 6.2.3. Temos que:
(150) hv, wi = v † w,
onde, do lado direito, aplicamos o produto de matrizes. ♦
1Poderı́amos também conjugar à direita, porém isso tornaria levemente menos elegantes algu-
mas fórmulas que mostraremos.
206 6. PRODUTO HERMITIANO

Antes de enunciar as propriedades fundamentais do produto hermitiano, preci-


samos dar a seguinte definição.
Definição 6.2.4. Sejam V , W e Z espaços vetoriais complexos. Uma função
f : V × W → Z é dita sesquilinear se for anti-linear a respeito da primeira compo-
nente e linear a respeito da segunda, ou seja, se:
• f (λ1 v 1 + λ2 v 2 , w) = λ̄1 f (v 1 , w) + λ̄2 f (v 2 , w) para todos v 1 , v 2 ∈ V , w ∈ W
e λ1 , λ2 ∈ C;
• f (v, λ1 w1 + λ2 w2 ) = λ1 f (v, w1 ) + λ2 f (v, w2 ) para todos w1 , w2 ∈ W , v ∈ V
e λ1 , λ2 ∈ C.
Equivalentemente, f é sesquilinear se, e somente se, a função f : V × W → Z é
bilinear. ♦
Lema 6.2.5. O produto hermitiano canônico h · , · i : Cn × Cn → C satisfaz as
seguintes propriedades fundamentais:
(H1) é uma função sesquilinear, ou seja, conforme a definição 6.2.4:
hλ1 v 1 + λ2 v 2 , wi = λ̄1 hv 1 , wi + λ̄2 hv 2 , wi
hv, λ1 w1 + λ2 w2 i = λ1 hv, w1 i + λ2 hv, w2 i
para todos v 1 , v 2 , w, v, w1 , w2 ∈ Cn e λ1 , λ2 ∈ C;
(H2) é uma função antissimétrica,2 ou seja, hv, wi = hw, vi para todos v, w ∈ Cn ;
(H3) é definido positivo, ou seja, hv, vi ∈ R≥0 para todo v ∈ Cn , sendo hv, vi = 0
se, e somente se, v = 0.
A demonstração é análoga à do lema 4.2.4. Como no caso real, as propriedades
(H1)–(H3) não caracterizam o produto hermitiano canônico e podem ser enunciadas
em relação a vetores de qualquer espaço vetorial complexo, portanto podemos dar
a seguinte definição.
Definição 6.2.6. Um produto hermitiano em V é uma função
h · , · i: V × V → C
que satisfaz as propriedades (H1)–(H3) enunciadas no lema 6.2.5. Um espaço veto-
rial hermitiano é um par (V, h · , · i), formado por um espaço vetorial complexo V e
um produto hermitiano h · , · i em V . ♦
Observação 6.2.7. Frequentemente diremos que “V é um espaço vetorial her-
mitiano”, subentendendo que se trata de um par (V, h · , · i). ♦
Exemplo 6.2.8. O espaço vetorial Cn com o produto hermitiano canônico, definido
por (149), é um espaço vetorial hermitiano, por causa do lema 6.2.5. ♦
Exemplo 6.2.9. No espaço C[x], formado pelos polinômios complexos em uma variável,
a seguinte função é um produto hermitiano:
han xn + · · · + a0 , bm xm + · · · + b0 i := āmin{n,m} bmin{n,m} + · · · + ā0 b0 .
2Estanoção de antissimetria não tem nada a ver com a que vimos para funções entre espaços
vetoriais euclidianos. A mesma observação vale para a noção de simetria na definição de produto
interno.
6.2. PRODUTO HERMITIANO 207

A demonstração das propriedades (H1)–(H3) é análoga à relativa ao produto hermitiano


canônico de Cn , mesmo se C[x] não é finitamente gerado. ♦
Exemplo 6.2.10. No espaço M (n, m; C), formado pelas matrizes complexas de n linhas
e m colunas, a seguinte função é um produto hermitiano:
n X
X m
h [aij ], [bij ] i := āij bij .
i=1 j=1

Também neste caso a demonstração das propriedades (H1)–(H3) é análoga à relativa ao


produto hermitiano canônico de Cnm . ♦
Exemplo 6.2.11. As seguintes funções são produtos hermitianos em C3 :
hv, wi := 5v̄1 w1 + 3v̄2 w2 + 8v̄3 w3
hv, wi := v̄1 w1 + v̄2 w2 + 10v̄3 w3
hv, wi := 3v̄1 w1 + 3v̄2 w2 + 2v̄3 w3 ,
sendo v = (v1 , v2 , v3 )T e w = (w1 , w2 , w3 )T . A demonstração das propriedades (H1)–(H3)
é análoga à do lema 6.2.5. ♦
Enfim, a observação 4.2.11 vale também a respeito dos produtos hermitianos,
considerando obviamente subespaços vetoriais complexos.

6.2.1. Norma e produto hermitiano. Daqui em diante denotaremos por V


um espaço vetorial hermitiano. Agora vamos estudar as relações entre a noção de
norma e a de produto hermitiano. Como no caso real, considerando o produto
canônico e a norma euclidiana em Cn , temos que hv, vi = kvk2 . Em geral, damos a
seguinte definição.
Definição 6.2.12. A norma induzida pelo produto hermitiano em V é definida
por
p
(151) kvk := hv, vi. ♦
Lema 6.2.13. A função (151) é uma norma, a qual torna todo espaço veto-
rial hermitiano um espaço vetorial complexo normado (portanto também um espaço
métrico).
A demonstração é análoga à do lema 4.2.13.
Exemplo 6.2.14. A norma induzida pelo produto hermitiano canônico em Cn é a
euclidiana. As normas induzidas pelos produtos hermitianos dos exemplos 6.2.9, 6.2.10 e
6.2.11 são as dos exemplos 6.1.7, 6.1.8 e 6.1.9. ♦
Agora podemos formular as mesmas perguntas do caso real:
(1) Toda norma em um espaço vetorial complexo é induzida por um produto
hermitiano?
(2) Se uma norma for induzida por um produto hermitiano, este é único? Equi-
valentemente, dois produtos hermitianos distintos no mesmo espaço indu-
zem duas normas distintas?
208 6. PRODUTO HERMITIANO

De novo a primeira resposta é negativa e a segunda é positiva. Comecemos pela


segunda. Seja (V, k · k) um espaço vetorial complexo normado e suponhamos que
a norma seja induzida por um produto hermitiano. Vamos demostrar que este
produto pode ser completamente deduzido a partir da norma, portanto é único. De
fato, aplicando as propriedades (H1) e (H2), temos que:
hv + w, v + wi = hv, vi + 2Re hv, wi + hw, wi,
logo, aplicando a fórmula (151), obtemos:
1

Re hv, wi = 2
kv + wk2 − kvk2 − kwk2 .
Analogamente:
hv + iw, v + iwi = hv, vi − 2Im hv, wi + hw, wi,
logo, aplicando a fórmula (151), obtemos:
Im hv, wi = − 21 kv + iwk2 − kvk2 − kwk2 .


Por isso:
1 i
 
(152) hv, wi = 2
kv + wk2 − kvk2 − kwk2 − 2
kv + iwk2 − kvk2 − kwk2 .
A fórmula (152) mostra que o produto hermitiano pode ser escrito somente em
função da norma, portanto dois produtos hermitianos distintos induzem normas
distintas, como querı́amos demonstrar. Ademais, obtemos um critério para verificar
se uma norma é induzida por um produto hermitiano. De fato, se o for, o produto
coincide com (152), portanto, fixada uma norma, consideramos a função (152) e
verificamos se satisfaz as três propriedades fundamentais. Se a resposta for negativa,
a norma não pode ser induzida por nenhum produto hermitiano. Resolvendo os
exercı́cios, o leitor verificará que as normas do exemplo 6.1.10, exceto o caso k = 2,
não são induzidas por um produto hermitiano. Isso mostra que a resposta à primeira
pergunta deste parágrafo é negativa.
6.2.2. Confronto entre produto interno e produto hermitiano – Parte
I. Vamos analisar o produto hermitiano canônico do ponto de vista real. Vamos
denotar por h · , · i o produto hermitiano canônico em Cn e por hh · , · ii o produto
interno canônico em Rm . Consideremos dois vetores v, w ∈ Cn . Sejam v = x + iy
e w = x0 + iy 0 , sendo x, y, x0 , y 0 ∈ Rn . Temos que v R = (x1 , y1 , . . . , xn , yn ) e wR =
(x01 , y10 , . . . , x0n , yn0 ), logo:
hhv R , wR ii = x1 x01 + y1 y10 + · · · + xn x0n + yn yn0 = hhx, x0 ii + hhy, y 0 ii
hhJ v R , wR ii = −y1 x01 + x1 y10 − · · · − yn x0n + xn yn0 = hhx, y 0 ii − hhx0 , yii.
Portanto, temos:
hv, wi = hx + iy, x0 + iy 0 i = (hhx, x0 ii + hhy, y 0 ii) + i(hhx, y 0 ii − hhx0 , yii)
(153)
= hhv R , wR ii + ihhJ v R , wR ii.
Por isso, o produto hermitiano contém em si o produto escalar entre v R e wR e
o produto escalar entre (iv)R e wR ao mesmo tempo. Pelo lema 6.1.5 temos que
hhv R , J wR ii = −hhJ v R , wR ii e hhJ v R , J wR ii = hhv R , wR ii, portanto obtemos todas as
6.2. PRODUTO HERMITIANO 209

informações possı́veis a respeito dos produtos internos entre os vetores dados e os


mesmos multiplicados por i. Em particular, sejam ±θ os ângulos entre v R e wR e
sejam ±θ0 os ângulos entre J v R e wR . Temos que:
Rehv, wi Imhv, wi
(154) cos θ = cos θ0 = .
kvkkwk kvkkwk
Equivalentemente, ±θ é o ângulo entre J v R e J wR e π ± θ0 é o ângulo entre v R e
J wR .
Em geral, consideremos um espaço vetorial real W com estrutura complexa J.
Dado um produto interno hh · , · ii em W , a respeito do qual J é ortogonal (equiva-
lentemente, antissimétrica), a fórmula (153) mostra como definir um produto her-
mitiano h · , · i em WJ , ou seja:
(155) hv, wi := hhv, wii + ihhJv, wii.
Verificaremos daqui a pouco que se trata efetivamente de um produto hermitiano
(lema 6.2.15). Equivalentemente, consideremos um espaço vetorial complexo V e
a sua realificação VR com a estrutura complexa induzida J0 . Dado um produto
hermitiano h · , · i em V , a fórmula (153) mostra como definir um produto interno
hh · , · ii em VR , a respeito do qual J0 é ortogonal (equivalentemente, antissimétrica),
ou seja:
(156) hhv, wii := Re hv, wi.
Verificaremos daqui a pouco que se trata efetivamente de um produto interno e que
J0 é ortogonal (lema 6.2.16). Obtemos a seguinte correspondência, que refina a (120)
acrescentando a informação sobre o produto hermitiano:
 
Φ
   Espaços vetoriais euclidianos 
Espaços vetoriais &
(157) f com estrutura complexa ,
hermitianos
ortogonal
 
Ψ

onde as bijeções Φ e Ψ são definidas da seguinte maneira:


• Φ associa ao par (V, h · , · i) a tripla (VR , J0 , hh · , · ii), sendo o produto interno
hh · , · ii definido por (156);
• Ψ associa à tripla (W, J, hh · , · ii) o par (WJ , h · , · i), sendo o produto her-
mitiano h · , · i definido por (155).
Vamos demonstrar que Φ e Ψ estão bem definidas e são inversas entre si. Os três
seguintes lemas provam isso.
Lema 6.2.15. Seja (W, hh · , · ii) um espaço vetorial euclidiano e seja J uma estru-
tura complexa em W . A estrutura J é ortogonal se, e somente se, é antissimétrica.
Neste caso, a fórmula (155) define um produto hermitiano em WJ .
Demonstração. Se J for ortogonal, hhJv, wii = hhJ 2 v, Jwii = −hhv, Jwii, por-
tanto J é antissimétrica. Reciprocamente, se J for antissimétrica, hhJv, Jwii =
−hhJ 2 v, wii = hhv, wii, portanto J é ortogonal. Como h · , · i é R-bilinear e J é R-
linear, a parte real e a parte imaginária de (155) são R-bilineares, portanto h · , · i é
210 6. PRODUTO HERMITIANO

R-bilinear. Para provar a sesquilineridade, só temos que analisar o comportamento


em relação à multiplicação por i de ambos os lados. Temos:
hiv, wi = hJv, wi = hhJv, wii − ihhv, wii = −ihv, wi
hv, iwi = hv, Jwi = hhv, Jwii + ihhJv, Jwii = −hhJv, wii + ihhv, wii = ihv, wi.
Em relação à propriedade (H2), temos que:
hw, vi = hhw, vii + ihhJw, vii = hhv, wii + ihhv, Jwii = hhv, wii − ihhJv, wii = hv, wi.
Enfim, sendo J antissimétrica, temos que hhJv, vii = 0, logo
(158) hv, vi = hhv, vii.
Isso implica que h · , · i é definido positivo, dado que hh · , · ii o é. 
Lema 6.2.16. Seja (V, h · , · i) um espaço vetorial hermitiano. A fórmula (156)
define um produto interno em VR , a respeito do qual a estrutura complexa canônica
J0 é ortogonal e antissimétrica.
Demonstração. Como h · , · i, sendo sesquilinear, é R-bilinear, também a parte
real o é, portanto hh · , · ii é bilinear. Ademais:
hhw, vii = Re hw, vi = Re hw, vi = Re hv, wi = hhv, wii.
Como h · , · i é definida positiva, em particular hv, vi ∈ R, portanto:
(159) hhv, vii = hv, vi.
Isso implica que hh · , · ii é definido positivo, dado que h · , · i o é. Enfim:
hhJ0 v, J0 wii = Re hiv, iwi = Re hv, wi = hhv, wii,
portanto J0 é ortogonal. Por isso hhJ0 v, wii = hhJ02 v, J0 wii = −hhv, J0 wii, logo J0 é
também antissimétrica. 
Lema 6.2.17. As funções Φ e Ψ da bijeção (157) são inversas entre si.
Demonstração. Fixemos um espaço vetorial hermitiano (V, h · , · i). Apli-
cando Φ obtemos a tripla (VR , J0 , hh · , · ii). Aplicando Ψ a esta tripla, obtemos o
espaço vetorial hermitiano ((VR )J0 , hhh · , · iii). Já sabemos que (VR )J0 = V , portanto
devemos demonstrar que hhh · , · iii = h · , · i. Temos:
hhhv, wiii = hhv, wii + ihhJv, wii = Re hv, wi + iRe hJv, wi = Re hv, wi + iRe hiv, wi
= Re hv, wi + iRe (−ihv, wi) = Re hv, wi + iIm hv, wi = hv, wi.
Isso mostra que Ψ ◦ Φ = id. Reciprocamente, fixemos um espaço vetorial euclidi-
ano com estrutura complexa ortogonal (W, J, hh · , · ii). Aplicando Ψ obtemos o par
(WJ , h · , · i). Aplicando Φ a este par, obtemos a tripla ((WJ )R , J0 , hhh · , · iii). Já sabe-
mos que (WJ )R = W e J0 = J, portanto devemos demostrar que hhh · , · iii = hh · , · ii.
Temos:
hhhv, wiii = Re hv, wi = Re (hhv, wii + ihhJv, wii) = hhv, wii.
Isso mostra que Φ ◦ Ψ = id. 
6.2. PRODUTO HERMITIANO 211

A correspondência (157) permite descrever os espaços vetoriais hermitianos com a


linguagem dos espaços vetoriais euclidianos, acrescentando uma estrutura complexa
compatı́vel com o produto interno. Também podemos refinar a correspondência
(138), descrevendo os espaços euclidianos com a linguagem dos espaços hermitianos,
acrescentando uma estrutura real compatı́vel. Mostraremos esta construção na seção
6.8.1; por enquanto preferimos basear a exposição na correspondência (157), a partir
da seguinte observação.
Observação 6.2.18. A fórmula (155) implica imediatamente a (154), a qual
mostra o significado geométrico do produto hermitiano: a parte real de hv, wi deter-
mina os ângulos entre v e w, conforme o produto interno subjacente em VR , enquanto
a parte imaginária determina os ângulos entre Jv e w. ♦
w

hv, wi = kvk · kwk


iv
θ0 ·(cos θ + i cos θ0 ).
θ v

6.2.3. Desigualdade de Cauchy-Schwartz. O enunciado da desigualdade de


Cauchy-Schartz no caso complexo é idêntico ao real. Antes de mostrar a demons-
tração mais simples deste resultado, vamos verificá-lo de uma maneira alternativa,
que mostra claramente o seu significado geométrico.
hv,wi
Fixados v, w ∈ V não nulos, consideremos a número complexo z := kvk·kwk .
A figura precedente, baseada na fórmula (154), explica o significado deste número
escrito em forma cartesiana, sendo z = cos θ + i cos θ0 . Vamos agora entender o
significado da forma polar, isto é, z = ρeiη , sendo ρ ≥ 0.
Notação 6.2.19. Seja A ⊂ V uma famı́lia de vetores. Denotamos por hAi o
subespaço vetorial complexo de V gerado por A e por hhAii o subespaço vetorial real
de VR gerado por A. Resolvendo o exercı́cio 5.24 da seção 5.2.8, o leitor verificou
que hAiR = hhAR ii. ♦
Fixados v, w ∈ V não nulos, consideremos a seguinte figura, análoga à prece-
dente, na qual o plano amarelo é hviR = hhv, J(v)ii.3 Denotamos por ψ o ângulo
entre w e hhv, Jvii. Por definição, ψ coincide com o ângulo entre w e π(w), sendo π(w)
a projeção ortogonal de w em hhv, Jvii,4 portanto − π2 ≤ ψ ≤ π2 , isto é, cos ψ ≥ 0.
Estabelecemos por convenção que 0 ≤ ψ ≤ π2 . Enfim, denotamos por η o ângulo de v
a π(w). Observamos que a estrutura complexa J se restringe ao plano hhv, Jvii, dado
que esse plano coincide com o subespaço vetorial complexo hvi. Pelo lema 5.2.25,
3Vamos reproduzir duas vezes a figura, para não acumular demasiados sı́mbolos em pouco
espaço.
4Obviamente, para definir a projeção ortogonal, estamos usando o produto interno de V
R
induzido pelo produto hermitiano de V .
212 6. PRODUTO HERMITIANO

J induz canonicamente uma orientação, representada pela base ordenada {v, Jv}.
Por isso, o ângulo η fica completamente determinado, sendo η 0 = π2 − η na figura.
w w

iv iv
0
ψ η π(w)
v η v

Teorema 6.2.20. Para todo v, w ∈ V \ {0}, vale a seguinte fórmula:


hv, wi
(160) = cos ψ · eiη .
kvk · kwk
Demonstração. Caso I: {v, w} dependente em V . A dependência (complexa)
de {v, w} equivale ao fato que w ∈ hhv, J(v)ii, portanto π(w) = w, η = θ, η 0 = θ0 e
ψ = 0. Pela fórmula (154) temos:
hv, wi
= cos θ + i cos θ0 = cos θ + i sin θ = eiθ = eiη .
kvk · kwk
Caso II: {v, w} independente em V . Fixamos a orientação do subespaço real W =
hhv, J(v), wii de VR , de dimensão 3, representada pela base ordenada A = {v, J(v), w}.
v
Seja uv := kvk e seja u ∈ W o único vetor que torna B := {uv , Juv , u} uma base
ortonormal positivamente orientada de W .
u w u w

θ00 iv θ00 iv
θ0
ψ
θ π(w)
v v

Sejam ±θ os ângulos entre w e v, ±θ0 os ângulos entre w e J(v) e ±θ00 os ângulos


entre w e u. Como a figura sugere, escolhendo θ00 entre 0 e π2 , temos que:5
π
(161) ψ + θ00 = .
2
Vamos verificar (161). Por hipótese w ∈ / hhv, Jvii (logo ψ 6= 0). Aplicando o exercı́cio
4.48 da seção 4.6.9, é suficiente verificar que w está incluso entre π(w) e u no
5Maisprecisamente, podemos escolher θ00 entre 0 e π. Como demonstraremos que ψ + θ00 = π
2,
isso implicará que θ00 ≤ π2 .
6.2. PRODUTO HERMITIANO 213

plano correspondente. Seja λ ∈ R tal que w = π(w) + λu. Devemos verificar que
λ > 0 (ou seja, que w pertence ao mesmo semi-espaço que contém w). Isso segue
imediatamente do fato que A = {v, Jv, w} e B 0 = {v, Jv, u} representam a mesma
orientação, sendo det(µ(A, B 0 )) = λ.
Os cossenos diretores de w em relação à base ortonormal B são precisamente
cos θ, cos θ0 e cos θ00 , logo, usando a identidade (97), cos2 θ00 = 1 − cos2 θ − cos2 θ0 ,
portanto, aplicando (161), temos cos2 ψ = sin2 θ00 = 1 − cos2 θ00 = cos2 θ + cos2 θ0 .
Pela fórmula (154) temos:
|hv, wi|
cos ψ = .
kvkkwk
hv,wi
Só falta verificar o argumento. Seja kvkkwk
= cos ψeix . Pela fórmula (154):

hv, π(w)i
= cos η + i sin η = eiη .
kvk · kπ(w)k
Ademais hv, wi = hv, π(w) + λui = hv, π(w)i e kπ(w)k = kwk cos ψ, portanto:

iη hv, wi cos ψeix


e = = = eix . 
kvk · kwk · cos ψ cos ψ
Corolário 6.2.21 (Desigualdade de Cauchy-Schwartz). Para todos v, w ∈ V ,
vale a desigualdade |hv, wi| ≤ kvk · kwk.

Demonstração. Se v = 0 ou w = 0 a tese é óbvia. Se ambos forem não nulos,


|hv,wi|
pela fórmula (160) temos que kvk·kwk = cos ψ ≤ 1. 

Corolário 6.2.22. A famı́lia {v, w} ⊂ V é dependente se, e somente se,


|hv, wi| = kvk · kwk.

Demonstração. (⇒) Se v = 0 ou w = 0, a igualdade é óbvia. Se ambos forem


não nulos, seja w = λv. Temos que |hv, wi| = |hv, λvi| = |λ| · kzk2 e kvk · kwk =
kvk · kλvk = |λ| · kzk2 , logo vale a igualdade. (⇐) Se um dois dois vetores for nulo,
obviamente a famı́lia é dependente. Se ambos forem não nulos, temos que w ∈
hhv, Jvii, portanto ψ = 0. A fórmula (160) implica imediatamente o resultado. 

Agora fica claro também o significado geométrico da desigualdade de Cauchy-


|hv,wi|
Schwartz: como no caso real o quociente kvkkwk é o módulo do cosseno do ângulo
entre v e w (por definição), no caso complexo este quociente é o módulo do cosseno
do ângulo entre w e o plano real hviR . Em ambos os casos, tratando-se do módulo
de um cosseno, é menor ou igual a 1.

Observação 6.2.23. Pela fórmula (160), temos que ψ = π2 se, e somente se,
hv, wi = 0. Isso é coerente com a fórmula (154). De fato, ψ = π2 equivale ao fato
que w seja ortogonal ao plano hviR , portanto, em (154), cos θ = cos θ0 = 0, logo
hv, wi = 0. ♦
214 6. PRODUTO HERMITIANO

Com o corolário 6.2.21 já demonstramos a desigualdade de Cauchy-Schwartz


complexa.6 Contudo, vamos dar uma demonstração mais rápida (a qual, obviamente,
vale também no caso real, demonstrando de outra maneira o teorema 4.2.15).
Teorema 6.2.24 (Desigualdade de Cauchy-Schwartz). Para todos v, w ∈ V :
|hv, wi| ≤ kvk · kwk.
Demonstração. Para todo λ ∈ C temos:
hv + λw, v + λwi ≥ 0 (propriedade 3)
hv, vi + λ̄hw, vi + λhv, wi + |λ|2 hw, wi ≥ 0 (propriedade 1)
hv, vi + 2<(λhv, wi) + |λ|2 hw, wi ≥ 0 (propriedade 2).
hw,vi
Seja λ := − hw,wi . Obtemos:
2 |hv,wi|2
kvk2 − 2 |hv,wi|
kwk2
+ kwk2
≥0
kvk2 kwk2 − |hv, wi| ≥ 0 2

logo kvk · kwk ≥ |hv, wi|. 


Assim podemos demonstrar a propriedade (N3) da norma sem passar pelo pro-
duto escalar real:
kv + wk2 = hv + w, v + wi = kvk2 + 2Re hv, wi + kwk2
(162) ≤ kvk2 + 2|hv, wi| + kwk2 ≤ kvk2 + 2kvkkwk + kwk2
= (kvk + kwk)2 ,
logo kv + wk ≤ kvk + kwk. Como fizemos no caso real, podemos aplicar a desigual-
dade de Cauchy-Schwartz em direção contrária e provar de outro modo a desigual-
dade (74). Enfim, podemos demonstrar o corolário 6.2.22 de modo equivalente, sem
utilizar a definição do ângulo ψ, da seguinte maneira.
Lema 6.2.25. Sejam v, w ∈ V . Temos que |hv, wi| = kvk · kwk se, e somente se,
a famı́lia {v, w} é dependente.
Demonstração. (⇒) Se v = 0 ou w = 0, a igualdade é óbvia. Se ambos forem
não nulos, seja w = λv. Temos que |hv, wi| = |hv, λvi| = |λ| · kzk2 e kvk · kwk =
kvk · kλvk = |λ| · kzk2 , logo vale a igualdade. (⇐) Se um dois dois vetores for
nulo, obviamente a famı́lia é dependente, portanto podemos supor que w 6= 0. Seja
hw,vi
λ := − hw,wi . Temos que:
hv + λw, v + λwi = hv, vi + 2Re hv, λwi + hλw, λwi
2 |hv,wi|2 kvk2 kwk2 −|hv,wi|2
= kvk2 − 2 |hv,wi|
kwk2
+ kwk2
= kwk2
= 0.
Isso implica que v + λw = 0, logo v = −λw. 
6Observamos que não podemos deduzi-la diretamente a partir da real. De fato, aplicando a de-
só podemos concluir que |hv, wi|2 = |hhv, wii|2 + |hhJ(v), J(w)ii|2 ≤
sigualdade real à fórmula (155),√
2 2
2kvk kwk , portanto |hv, wi| ≤ 2kvkkwk.
6.2. PRODUTO HERMITIANO 215

6.2.4. Matriz representativa e mudança de base. Seja A = {a1 , . . . , an }


uma base ordenada de V . A base A define naturalmente a seguinte matriz, dita
matriz representativa do produto hermitiano a respeito de A:
(163) ν(A) := [hai , aj i].
Definição 6.2.26. Uma matriz A ∈ M (n; C) é dita hermitiana se A = A† (v.
notação 6.2.2) e anti-hermitiana se A = −A† . Denotamos por H(n; C) o conjunto
das matrizes hermitianas e por AH(n; C) o das matrizes anti-hermitianas. ♦
O leitor pode verificar que H(n; C) e AH(n; C) são subespaços vetoriais reais de
M (n; C)R , enquanto não são subespaços vetoriais complexos de M (n; C). Analisare-
mos mais em detalhe esta propriedade na seção 6.5.1. Nesta seção não precisaremos
considerar matrizes anti-hermitianas, mas já antecipamos a definição por comple-
tude.
A matriz (163) é hermitiana por causa da propriedade (H2). Dados v 1 , v 2 ∈ V ,
sejam v 1 = λk ak e v 2 = µk ak . Temos que:
hv 1 , v 2 i = hλk ak , µh ah i = λ̄k µh hak , ah i
portanto, definindo os vetores λ = (λ1 , . . . , λn )T ∈ Cn e µ = (µ1 , . . . , µn )T ∈ Cn ,
obtemos:
(164) hv 1 , v 2 i = λ† · ν(A) · µ.
Observamos que, se V = Cn com o produto hermitiano canônico e A for a base
canônica, então ν(A) = In , λ = v 1 e µ = v 2 , portanto a fórmula (164) coincide com
a (150). Enfim, resolvendo o exercı́cio 6.15 da seção 6.2.5, o leitor verá como ligar a
matriz representativa de um produto hermitiano à do produto interno subjacente.
Observação 6.2.27. Por causa da fórmula (164) a matriz representativa de um
produto hermitiano a respeito de uma base não pode ser uma matriz hermitiana
qualquer, e sim tem que ser uma matriz A ∈ M (n; C) definida positiva, ou seja,
tal que λ† Aλ ≥ 0 para todo λ ∈ Cn , valendo a igualdade se, e somente se, λ = 0.
Mostraremos que isso equivale ao fato que todo autovalor de A é positivo, mas
para demonstrar este resultado precisaremos do teorema espectral complexo, que
estudaremos no capı́tulo 7. ♦
Observação 6.2.28. Sejam V = Cn e A = C a base canônica. Já observamos
que, se o produto hermitiano for o canônico, a fórmula (164) coincide com a (150).
Consideremos agora um produto hermitiano genérico em Cn . Na fórmula (164)
temos que λ = v 1 e µ = v 2 , portanto, se A := ν(C), temos que
(165) hv 1 , v 2 i = v †1 A v 2 .
Isso demonstra que todo produto interno em Cn é da forma (165), sendo A ∈
GL(n; C) uma matriz hermitiana definida positiva. ♦
Observação 6.2.29. A matriz ν(A) pode ser definida através da fórmula (163)
para qualquer famı́lia A = {a1 , . . . , an } ⊂ V , mesmo se não for uma base de V .
Neste caso não será uma matriz definida positiva (nem invertı́vel em geral), mas
216 6. PRODUTO HERMITIANO

continua sendo hermitiana. Ademais, se não pedirmos que A seja uma base, o
número de elementos de A pode também ser diferente de n = dim V . ♦
Vamos agora verificar como muda a matriz representativa de um produto hermi-
tiano mudando a base correspondente. Sejam A = {a1 , . . . , an } e B = {b1 , . . . , bn }
duas bases ordenadas de V . Sejam A = ν(A) = [αij ], B = ν(B) = [βij ] e
C = µ(A, B) = [γij ]. Temos que:
βij = hbi , bj i = hγ ki ak , γ hj ah i = γ̄ ki γ hj hak , ah i = (γ † )i k αkh γ hj
portanto
(166) B = C † AC.
Definição 6.2.30. Duas matrizes hermitianas A, B ∈ H(n; C) são ditas her-
mitianamente congruentes se existe uma matriz invertı́vel C ∈ GL(n; C) tal que
B = C † AC. ♦
O leitor pode verificar que a congruência hermitiana de matrizes é uma relação
de equivalência (v. exercı́cio 6.11 da seção 6.2.5). Observamos que a relação (166)
faz sentido também se C não é invertı́vel, mas neste caso A e B não são consideradas
congruentes (nem se trataria de uma relação de equivalência). Contudo, se A e B
representarem um produto hermitiano, então é automático que C seja invertı́vel.
De fato, A e B são invertı́veis (v. observação 6.2.27) e det B = det A · |det C|2 , logo
det C 6= 0. Enfim, as observações 4.2.23 (substituindo C T C por C † C) e 4.2.24 valem
também em relação a um produto hermitiano.
6.2.5. Exercı́cios.
6.11. Adapte ao contexto complexo os enunciados dos exercı́cios 4.9, 4.10 e 4.15 da
seção 4.2.4 e demonstre que continuam sendo válidos.
6.12. Calcule a matriz representativa do produto hermitiano canônico em C3 a respeito
da base A = {(1, i, 1), (−1, i, 1 + i), (2, 0, 1)}. Calcule a matriz representativa a respeito
da base B = {(1 + i, −1 − i, −1), (2, 2i, 3 + i), (3 + 2i, i, 2 + i)} a partir da definição (163)
e aplicando a fórmula (166), verificando que se obtém o mesmo resultado.
6.13. Seja V = {(x, y, z, w) : x − iy + (2 − i)w = 0} ⊂ C4 . Ache a matriz representativa
do produto escalar canônico em V a respeito da base A = {(2, 1, 0, −1), (2i − 2, 1, i, 1), (i −
2, 0, 0, 1)}. Usando essa matriz, calcule o produto hermitiano h(3i − 2, 2, i, 1), (4 − i, i −
1, −i, −2 − i)i.
6.14. Seja A ∈ M (n; C) e seja AR ∈ M (2n; R) a realificação de A.
• Verifique que (A† )R = (AR )T .
• Verifique que A é (anti-)hermitiana se, e somente se, AR é (antis)simétrica.
6.15. Sejam V um espaço vetorial hermitiano e A uma base de V . Denotamos por
ν(A) e νR (AR ) as matrizes representativas respetivamente do produto hermitiano em V e
do produto interno correspondente em VR .
• Demonstre que νR (AR ) = (ν(A))R , coerentemente com o exercı́cio 6.14.
• Verifique que as fórmulas de mudança de base (166) e (86) são coerentes com o
item precedente.
6.3. ORTOGONALIDADE 217

6.3. Ortogonalidade
A definição de ortogonalidade no caso complexo é idêntica à real.
Definição 6.3.1. Dois vetores v, w ∈ V são ortogonais ou perpendiculares se
hv, wi = 0. Usamos a notação v ⊥ w. ♦
Quando queremos distinguir entre a ortogonalidade em V e a em VR usamos os
sı́mbolos ‘⊥C ’ e ‘⊥R ’.
Observação 6.3.2. Como no caso real (observação 4.3.2), 0 é o único vetor
ortogonal a todo vetor de V e é o único vetor ortogonal a si mesmo. Se v 6= 0 e
w 6= 0, o fato de serem ortogonais equivale ao fato que, na fórmula (154), θ = ± π2 e
θ0 = ± π2 . Isso significa que w é ortogonal a v, como vetor complexo, se, e somente
se, w é ortogonal ao plano real hhv, J(v)ii, como já afirmamos na observação 6.2.23.
Enfim, a partir da fórmula (152) obtemos que:
(167) v ⊥C w ⇔ kv + wk2 = kv + iwk2 = kvk2 + kwk2 .
Trata-se de uma dupla aplicação do teorema de Pitágoras e do seu inverso. ♦
6.3.1. Famı́lias ortogonais e ortonormais. As definições de famı́lia (ou base)
ortogonal e ortonormal coincidem com as correspondentes reais, substituindo o pro-
duto escalar pelo hermitiano. Também o lema 4.3.5 vale com a mesma demonstração.
Resolvendo o exercı́cio 6.16 da seção ??, o leitor demonstrará o seguinte lema.
Lema 6.3.3. A famı́lia A = {a1 , . . . , ak } ⊂ V é ortonormal (ortogonal) se, e
somente se, a famı́lia AR = {a1 , ia1 , . . . , ak , iak } ⊂ VR é ortonormal (ortogonal).
Na fórmula (89) temos que prestar atenção à ordem dos vetores no produto
hermitiano, para que as entradas do vetor não fiquem conjugadas.
Lema 6.3.4. Sejam v ∈ V e A = {a1 , . . . , an } uma base ortonormal de V . Então:
(168) v = ha1 , via1 + · · · + han , vian .
Podemos definir a projeção ortogonal de v na direção de w usando a formula
análoga à (92), mas escolhendo a ordem correta no produto hermitiano para que a
projeção seja linear e não anti-linear:
hw, vi
(169) πw (v) := w.
hw, wi
Vamos entender o significado geométrico de (169). Para distinguir entre a projeção
C-linear em V e a projeção R-linear em VR , usamos a notação πwC (v) e πwR (v). Pelas
fórmulas (169) e (153), temos que:
hhw, vii + ihhJ(w), vii hhw, vii hhJw, vii
πwC (v) = w= w+ Jw = πwR (v) + πJw
R
(v).
hhw, wii hhw, wii hhJw, Jwii
Logo, do ponto de vista real, a projeção (169) é a soma das projeções reais em w e
J(w). Como {w, J(w)} é uma base ortogonal do plano real que gera, isso significa
que a projeção complexa de v na direção de w é a projeção real de v no plano
hhw, Jwii.
218 6. PRODUTO HERMITIANO

iv
πvC (w)
v

Chamando, como já fizemos, de ±θ o ângulo entre v e w e de ±θ0 o ângulo entre


v e Jw, a partir da fórmula (90) obtemos que:
πwC (v) = kvk cos θ uw + kvk cos θ0 u(Jw) = kvk cos θ (uw ) + kvk cos θ0 J(uw ),
portanto:
πwC (v) = kvk(cos θ + i cos θ0 )uw .
Esta é a fórmula equivalente à (90) no caso complexo.
Tendo definido a noção de projeção ortogonal, o método de Grahm-Schmidt se
estende diretamente ao caso complexo.
Teorema 6.3.5 (Método de ortonormalização de Grahm-Schmidt). Seja B =
{v 1 , . . . , v n } uma base de V . Definimos por indução, a partir de a1 := uv1 :
i−1
X
(170) a0i := v i − haj , v i iaj ai := ua0i
j=1

para todo i entre 2 e n. A famı́lia A = {a1 , . . . , an } é uma base ortonormal de V .


Teorema 6.3.6 (Método de ortonormalização de Grahm-Schmidt II). Seja B =
{v 1 , . . . , v n } uma base de V . Definimos:
i−1
X ha0j , v i i 0
(171) a01 := v 1 a0i := v i − a
j=1
ha0j , a0j i j
para todo i entre 2 e n. Enfim:
ai := ua0i ∀i ∈ {1, . . . , n}.
A famı́lia A = {a1 , . . . , an } é uma base ortonormal de V .
A demonstração é análoga à do caso real. Geometricamente, em cada passo
tiramos a projeção do vetor complexo v i no subespaço complexo ha1 , . . . , ai−1 i, isto
é, no subespaço real hha1 , ia1 , . . . , ai−1 , iai−1 ii. Enfim, vale o seguinte lema, cuja
demonstração será deixada ao leitor como exercı́cio (v. ex. 6.21 da seção 6.3.5).
Lema 6.3.7. Sejam B = {v 1 , . . . , v k } uma famı́lia independente e BR = {v 1 , iv 1 ,
. . . , v k , iv k }. Se, aplicando o método de Grahm-Schmidt complexo à famı́lia B, obte-
mos a famı́lia ortonormal A = {a1 , . . . , ak }, então, aplicando o método de Grahm-
Schmidt real à famı́lia BR , obtemos a famı́lia ortonormal AR = {a1 , ia1 , . . . , ak , iak }.
6.3. ORTOGONALIDADE 219

6.3.2. Bases ortonormais e matriz de mudança de base. A demonstração


do seguinte lema é idêntica à do lema 4.3.16.
Lema 6.3.8. Sejam A = {a1 , . . . , ak } uma base ortonormal de V e B = {b1 , . . . ,
bh } ⊂ V uma famı́lia de vetores. Seja µ(A, B) = [αij ]. Temos que:
(172) αij = hai , bj i.
Vamos agora introduzir o conceito análogo ao de matriz ortogonal no caso com-
plexo.
Definição 6.3.9. Uma matriz A ∈ M (n; C) é dita unitária se A−1 = A† , ou
seja, se AA† = A† A = In . Denotamos por U(n) o conjunto das matrizes unitárias
de ordem n. ♦
É claro que uma matriz real é unitária se, e somente se, é ortogonal. Equivalen-
temente, O(n) ⊂ U(n). Ademais, o conjunto U(n), com a operação de produto de
matrizes, é um grupo, exatamente como O(n) o é. Mais precisamente, U(n) é um
subgrupo de GL(n; C), tão como O(n) é um subgrupo de GL(n; R). Resolvendo o
exercı́cio 6.29 da seção 6.3.5, o leitor verá qual é a relação entre U (n) e O(2n); isso
será muito relevante quando introduziremos as funções unitárias.
Observação 6.3.10. Se A for unitária, então |det A| = 1. De fato, como A† A =
In , temos que det A · det A = 1. ♦
A demonstração dos seguintes lema e corolário são análogas às do lema 4.3.19 e
do relativo corolário, conjugando os escalares quando for necessário.
Lema 6.3.11. Sejam A = {a1 , . . . , an } uma base ortonormal de V e B = {b1 ,
. . . , bn } ⊂ V . A famı́lia B é uma base ortonormal de V se, e somente se, µ(A, B) ∈
U(n).
Corolário 6.3.12. Uma matriz A ∈ M (n; C) é unitária se, e somente se, as
colunas de A formam uma base ortonormal de Cn , se, e somente se, as linhas de A
formam uma base ortonormal de Cn (em relação ao produto hermitiano canônico).
6.3.3. Produtos hermitianos e bases ortonormais. Os comentários que
fizemos antes do lema 4.3.23 valem também no complexo. A demonstração do
seguinte lema é análoga à do 4.3.23.
Lema 6.3.13. Sejam V um espaço vetorial complexo e A = {a1 , . . . , an } uma
base de V . Existe um único produto hermitiano em V que torna A ortonormal,
definido da seguinte maneira. Sejam v = λi ai e w = µj aj . Temos:
(173) hv, wi = λ̄1 µ1 + · · · + λ̄n µn .
Fixado um espaço vetorial complexo V , sejam B o conjunto das bases de V e
M o conjunto dos produtos hermitianos de V . Fica definida a função
(174) Φ: B → M
que associa à base A a único produto que torna A ortonormal. Essa função é
sobrejetora mas não injetora. A demonstração dos seguinte lema é análoga à do
lema 4.3.24.
220 6. PRODUTO HERMITIANO

Lema 6.3.14. Seja V um espaço vetorial complexo e sejam A e B duas bases


ordenadas de V . Sejam h · , · i o produto hermitiano que torna A ortonormal e
hh · , · ii o que torna B ortonormal. Os dois produtos coincidem se, e somente se,
µ(A, B) ∈ U(n), ordenando as duas bases de qualquer maneira.
Consideramos A, B ∈ B equivalentes se, e somente se, µ(A, B) ∈ U(n) e usamos
a notação A ∼U B. Por causa do lema 6.3.14, temos que Φ(A) = Φ(B), sendo Φ a
função (100), se, e somente se, A e B são equivalentes. Por isso, obtemos a seguinte
bijeção:
'
Φ : B/ ∼U −→ M
(175)
[A] 7→ Φ(A).
Equivalentemente, temos as seguintes bijeções, inversas entre si:
  Φ  
Bases & Produtos
(176) ∼U f .
de V hermitianos de V
−1
Φ

−1
A bijeção Φ é a função (175) e a inversa Φ associa a cada produto hermitiano
de V o conjunto das bases ortonormais correspondentes, o qual é uma classe de
equivalência de ∼U .

6.3.4. Complemento ortogonal e projeções. A definição de complemento


ortogonal é idêntica à real.
Definição 6.3.15. Seja A ⊂ V um subconjunto não vazio. O complemento
ortogonal de A em V , denotado por A⊥ , é o conjunto dos vetores de V ortogonais
a todo vetor de A:
A⊥ = {v ∈ V : hv, wi = 0 ∀w ∈ A}. ♦
Lema 6.3.16. Seja A ⊂ V não vazio.
(1) A⊥ é um sub-espaço vetorial de V ;
(2) A⊥ = hAi⊥ , ou seja, o complemento ortogonal de uma famı́lia dada é igual
ao complemento ortogonal do subespaço gerado pela famı́lia.
Vamos comparar o caso real e o caso complexo. Para distinguir entre os dois,
usamos os sı́mbolos ‘⊥C ’ e ‘⊥R ’. Dado v ∈ V , pela fórmula (153) temos que w ∈ v ⊥C
se, e somente se, w ∈ hhv, J(v)ii⊥R . Portanto, o complemento ortogonal complexo de
um subconjunto de V corresponde ao complemento ortogonal real do subconjunto
correspondente de VR e da sua imagem através de J:
(177) A⊥C = (AR )⊥R .
Por isso vale sempre a inclusão A⊥C ⊂ A⊥R , mas, em geral, não vale a igualdade.
É claro que, se W ⊂ V for um subespaço vetorial (complexo), então J(W ) = W ,
logo, neste caso, como conjuntos W ⊥R = W ⊥C . Como subespaços vetoriais temos
que W ⊥R = (W ⊥C )R .
6.3. ORTOGONALIDADE 221

Exemplo 6.3.17. Seja A = {(1, 0)} ⊂ C2 . Aplicando o isomorfismo (118), temos


que ξ(A) = {(1, 0, 0, 0)} ⊂ R4 . Considerando o complemento ortogonal, é claro que
A⊥C = {(0, z)} ⊂ C2 , logo ξ(A⊥C ) = {(0, 0, x, y)} ⊂ R4 . No caso real, temos que A⊥R =
{(it, z) : t ∈ R} ⊂ C2 , logo ξ(A⊥R ) = {(0, t, x, y)} ⊂ R4 , portanto A⊥C ( A⊥R . Enfim,
temos que AR = {(1, 0), (i, 0)} ⊂ C2 , logo ξ(AR ) = {(1, 0, 0, 0), (0, 1, 0, 0)} ⊂ R4 . Neste
caso (AR )⊥R = {(0, z)} ⊂ C2 , logo ξ((AR )⊥R ) = {(0, 0, x, y)} ⊂ R4 . Isso mostra que
(AR )⊥R = A⊥C . ♦
Observação 6.3.18. A fórmula (177) é compatı́vel com os lemas 4.3.27 e 6.3.16.
De fato, pelo lema 6.3.16 temos que A⊥C = hAi⊥C , sendo hAi os sub-espaço vetorial
complexo gerado por A. Analogamente, pelo lema 4.3.27 temos que A⊥R = hhAii⊥R ,
sendo hhAii o subespaço vetorial real gerado por A. Temos que hhAii ⊂ hAi, mas em
geral não vale a igualdade, enquanto hhAR ii = hAi. ♦
A observação 4.3.28, o teorema da base ortonormal incompleta 4.3.29, o corolário
4.3.30 e a definição 4.3.32 valem também no caso complexo sem variações. Em
relação à fórmula (104), devemos lembrar que a projeção tem que ser linear no vetor
a ser projetado, portanto, se {a1 , . . . , ak } for uma base ortonormal de um subespaço
vetorial W ⊂ V , temos que:
(178) πW (v) = ha1 , via1 + · · · + hak , viak .
Enfim, também as observações 4.3.34, 4.3.35 e 4.3.36 continuam valendo.
6.3.5. Exercı́cios.
6.16. Demonstre o lema 6.3.3.
6.17. Encontre uma base ortonormal do subespaço V = {(x, y, z, w) : x+iy +(2−i)z =
0} ⊂ C4 com o produto hermitiano canônico.
6.18. Considere a seguinte função linear:
f : C2 → C2
(z, w) 7→ (2z − iw, (1 − i)z + 4iw).
Sejam A = {(1, 2), (1, i)} e B = √12 , − √12 , √i2 , √i2
  
. Verifique que B é ortonormal e
calcule µAB (f ) aplicando a fórmula (172).
6.19. Escreva explicitamente o produto hermitiano de C2 tal que a base A = {(1, i), (1−
i, 0)} é ortonormal.
6.20. Sejam:
     
1 0 −i 3 2i 0 1 0 0
A1 = 0 1 0  A2 = −2i 3 0 A3 = 0 3 1 + i .
i 0 3 0 0 2 0 1−i 1
Quando o leitor terá aprendido o teorema espectral complexo, poderá verificar que A1 , A2
e A3 são definidas positivas. Nos seguintes itens, para cada i ∈ {1, 2, 3}, consideraremos o
produto hermitiano em C3 representado por Ai a respeito da base canônica.
(1) Calcule o ângulo entre os vetores (0, 1, 0) e (0, 0, 1) em (C3 )R .
(2) Ache uma base ortonormal de C3 através do método de Grahm-Schmidt, partindo
da base canônica.
222 6. PRODUTO HERMITIANO

(3) Ache a equação do plano complexo passante por (1, i, −1) e perpendicular ao
vetor (i, 0, 2 + i).
6.21. Demonstre o lema 6.3.7.
6.22. Calcule o complemento ortogonal do seguinte subespaço vetorial de C4 , dotado
do produto hermitiano canônico:
V = h(1 + i, 1, 1 − i, 1), (−i, −i, 0, −1)i.
6.23. Para cada um dos produtos hermitianos em C3 considerados no exercı́cio 6.20,
calcule uma base do complemento ortogonal da reta h(2, −i, i)i.
6.24. Encontre a projeção de (1, i, i − 1) na direção de (1, i, i) em C3 com o produto
hermitiano canônico.
6.25. Sejam W = {(x, y, z, w) : ix − z + (1 − i)w = 0, x + iw = 0} ⊂ C4 , dotado do
produto hermitiano canônico, e v = (1, 1 + i, 0, −1) ∈ V . Calcule a projeção de v em W .
6.26. Para cada um dos produtos hermitianos em C3 considerados no exercı́cio 6.20,
calcule a projeção ortogonal do vetor v = (1, i, 1) no plano W = h(1, 0, i), (0, −i, 2)i, usando
os dois métodos descritos na observação 4.3.35.
6.27. Seja V = (2, i, −i, 1)⊥ em C4 com o produto hermitiano representado em relação
à base canônica por:  
1 0 0 1
0 2 i 0
A= 0 −i 1 0 .

1 0 0 2
Seja W = h(2, 0, i − 1, −1)i ⊂ V . Calcule uma base de W ⊥V .
6.28. Determine todas as matrizes unitárias de ordem 1 e 2 (ou seja, pertencentes
respetivamente a U(1) e U(2)).
6.29. Complete o exercı́cio 6.14, verificando que A é unitária se, e somente se, AR é
ortogonal. Observe que isso é coerente com os lemas 4.3.19 e 6.3.11.
6.30. Seja C3 dotado do produto hermitiano que torna a base A = {(1, 0, i), (1, −i, 1),
(0, 2 − i, 2 − i)} ortonormal. Usando a matriz de mudança de base, estabeleça quais entre
as seguintes bases são ortonormais:
√ 
• B1 = 1+i √ , √1 , i 2 , 1+i √ , − √i , 0 , (0, −2i − 1, −2i − 1) ;
 
2 2 2 2
• B2 = {(2, 2 − 2i, 3), (0, 2 − i, −
 i),
2 (1, 2 − 2i,
3 − i)};
1 1+i 2+2i i i−1 2i−2

• B3 = (1, 0, i), 2 , 2 , 2 , 2 , 2 , 2 .
√ √ √ √ √ √

6.4. Funções lineares unitárias


A noção de transformação ortogonal se generaliza naturalmente ao caso com-
plexo, conforme a seguinte definição.
Definição 6.4.1. Sejam V e W espaços vetoriais hermitianos. Uma função
linear f : V → W é dita unitária se respeita os produtos hermitianos, ou seja, se:
hf (v 1 ), f (v 2 )i = hv 1 , v 2 i ∀v 1 , v 2 ∈ V. ♦
6.4. FUNÇÕES LINEARES UNITÁRIAS 223

Observação 6.4.2. Uma função unitária é necessariamente injetora. De fato,


seja v ∈ V . Se v 6= 0, então hf (v), f (v)i = hv, vi =
6 0, logo f (v) 6= 0. Em particular,
se dim V = dim W , então f é um isomorfismo. ♦
A demonstração do seguinte lema é análoga à do lema 4.4.3.
Lema 6.4.3. Sejam V e W espaços vetoriais hermitianos e seja f : V → W uma
função linear. Os seguintes fatos são equivalentes:
(1) f é unitária;
(2) f respeita as normas, ou seja, kf (v)k = kvk para todo v ∈ V ;
(3) f manda famı́lias ortonormais em famı́lias ortonormais, ou seja, se A =
{a1 , . . . , ak } for uma famı́lia ortonormal de V , então f (A) = {f (a1 ), . . . ,
f (ak )} é uma famı́lia ortonormal de W ;
(4) existe uma base ortonormal A de V tal que f (A) é uma famı́lia ortonormal
de W ;
(5) f é representada a respeito de uma base ortonormal de V e de uma base
ortonormal de W por uma matriz A tal que A† A = Idim V .
Corolário 6.4.4. Seja f : V → W uma função linear, sendo dim V = dim W .
A função f é unitária se, e somente se, é representada a respeito de uma base
ortonormal de V e de uma base ortonormal de W por uma matriz unitária.
Observação 6.4.5. A equivalência (1) ⇔ (5) no lema 6.4.3 é bem clara para
f : Cn → Cm , v 7→ Av. De fato, temos que f é unitária se, e somente se:
hAv 1 , Av 2 i = hv 1 , v 2 i ∀v 1 , v 2 ∈ Cn
v †1 A† Av 2 = v †1 v 2 ∀v 1 , v 2 ∈ Cn
A† A = In .
Dessa maneira, para n = m, fica mais fácil lembrar a relação entre matrizes unitárias
e morfismos unitários. ♦
Sabemos que dois espaços vetoriais complexos da mesma dimensão são isomorfos.
Equivalentemente, todo espaço vetorial complexo de dimensão n é isomorfo a Cn .
Vale um resultado análogo para os espaços vetoriais hermitianos.
Lema 6.4.6. Dados dois espaços vetoriais hermitianos da mesma dimensão V
e W , existe um isomorfismo unitário f : V → W . Equivalentemente, todo espaço
vetorial hermitiano de dimensão n é unitariamente isomorfo a Cn dotado do produto
hermitiano canônico.
Demonstração. É suficiente fixar uma base ortonormal A de V e uma base
ortonormal B de W e considerar o único isomorfismo tal que f (A) = B. Pelo item
(4) do lema 6.4.3, f é unitário. 
6.4.1. Confronto entre funções unitárias e ortogonais. Dada uma função
C-linear f : V → W , denotamos por fR : VR → WR a mesma função entre as reali-
ficações correspondentes. Claramente, como funções entre conjuntos, f = fR . No
seguinte lema, V e W são espaços vetoriais hermitinaos, logo VR e WR são euclidia-
nos, sendo dotados do produto interno induzido pela correspondência (157).
224 6. PRODUTO HERMITIANO

Lema 6.4.7. A função C-linear f : V → W é unitária se, e somente se, a função


R-linear fR : VR → WR é ortogonal.
Demonstração - Método I. (⇒) Temos que:
hhfR (v 1 ), fR (v 2 )ii = Re hf (v 1 ), f (v 2 )i = Re hv 1 , v 2 i = hhv 1 , v 2 ii.
(⇐) Sendo fR a realificação de uma função C-linear, comuta com as estruturas
complexas induzidas em VR e WR , que denotamos por J (usamos o mesmo sı́mbolo
para as duas). Temos que:
hf (v 1 ), f (v 2 )i = hhfR (v 1 ), fR (v 2 )ii + ihhJfR (v 1 ), fR (v 2 )ii
= hhfR (v 1 ), fR (v 2 )ii + ihhfR (Jv 1 ), fR (v 2 )ii
= hhv 1 , v 2 ii + ihhJv 1 , v 2 ii = hv 1 , v 2 i. 
Demonstração - Método II. Sejam A uma base ortonormal de V e B uma
base ortonormal de W . As bases AR de VR e BR de WR são também ortonormais pelo
lema 6.3.3. Ademais, µAR BR (fR ) = (µAB (f ))R pelo lema 5.2.24. Dado que µAB (f ) é
unitária se, e somente se, (µAB (f ))R é ortogonal (v. exercı́cio 6.29 da seção 6.3.5),
obtemos a tese. 
O lema 6.4.7 pode ser enunciado também da seguinte maneira equivalente: uma
função R-linear g : VR → WR é a realificação de uma função unitária se, e somente
se, comuta com as estruturas complexas e é ortogonal. De fato, comutar com as
estruturas complexas equivale a ser a realificação de uma função C-linear gC : V →
W , portanto gC é unitária se, e somente se, g é ortogonal. Poderı́amos resumir
rapidamente esta afirmação da seguinte maneira: para uma função R-linear, unitária
= ortogonal + C-linear. Equivalentemente, unitária = ortogonal que comuta com
J. Isso torna mais fácil visualizar geometricamente uma função unitária.
6.4.2. Grupo unitário.
Notação 6.4.8. Denotamos por U(V ) o conjunto das transformações unitárias
de V a V . ♦
O conjunto U(V ), dotado da operação de composição, é um subgrupo de GL(V ).
Fixando uma base ortonormal de V , a matriz representativa µA determina uma
bijeção entre U(V ) e U(n), tal que µA (g ◦ f ) = µA (g) · µA (f ). Por isso µA é um
isomorfismo de grupos. Obtemos o seguinte diagrama comutativo de grupos:
µA
(179) U(V ) / U(n)
_ '  _

 µA

GL(V ) / GL(n; C).
'

Podemos definir a noção de reflexão também no caso complexo. Dado um su-


bespaço vetorial W ⊂ V , a reflexão complexa em relação a W em V é a seguinte
função linear:
rW : V → V
(180)
w + w0 7→ w − w0 .
6.5. FUNÇÕES LINEARES HERMITIANAS E ANTI-HERMITIANAS 225

É fácil verificar que rW é uma função unitária, que coincide com a reflexão real
em relação a WR em VR . Pode-se verificar como no caso real que qualquer reflexão
complexa pode ser escrita como a composição de algumas reflexões em relação a
hiperplanos. Todavia, não vale a versão unitária do teorema 4.4.17. De fato, consi-
deremos por exemplo C com o produto hermitiano canônico. Os únicos subespaços
vetoriais são {0} e C todo, portanto as únicas reflexões complexas possı́veis são a
identidade e a sua oposta, mas U(1) é bem maior que {id, −id}, dado que qualquer
transformação do tipo z 7→ eiθ z, sendo θ ∈ R, é unitária. Estudaremos no próximo
capı́tulo, graças ao teorema espectral, a estrutura geométrica das transformações
unitárias.
6.4.3. Pull-back e push-forward. Podemos definir as noções de pull-back e
push-forward de um produto hermitiano exatamente como no caso real, sem ne-
nhuma variação. As mesmas propriedades continuam valendo. O leitor pode elabo-
rar facilmente os detalhes.
6.4.4. Exercı́cios.
6.31. Determine todas as transformações unitárias de C a C e de C2 a C2 com o
produto hermitiano canônico.
6.32. Encontre uma transformação unitária f : C3 → C3 (em relação ao produto her-
mitiano canônico) tal que f (1, i, i) = (−i + 1, −i, 0).
6.33. Adapte ao contexto complexo os enunciados dos exercı́cios 4.28, 4.29 e 4.30 da
seção 4.4.4.
6.34. Seja C2 dotado do produto hermitiano h(z1 , w1 ), (z2 , w2 )i = 2z̄1 z2 + w̄1 w2 +
iz̄1 w2 − iw̄1 z2 .
√ √
(1) Construa uma função unitária f : C2 → C2 tal que f (1, 0) = ( 2, i 2).
(2) Seja C ∈ GL(2; C) a matriz representativa de f em relação à base canônica. Con-
forme a notação do exercı́cio 6.33 (adaptando o exercı́cio 4.28), verifique explici-
tamente que C ∈ UA (2), sendo A a matriz que representa o produto hermitiano
fixado a respeito da base canônica.
6.35. Adapte ao contexto complexo os enunciados dos exercı́cios 4.32–4.35 da seção
4.4.4, verificando que continuam valendo.

6.5. Funções lineares hermitianas e anti-hermitianas


O adjunto de um homomorfismo complexo está definido como no caso real.
Definição 6.5.1. Sejam V e W espaços vetoriais hermitianos e seja f : V → W
uma função linear. O homomorfismo adjunto de f , denotado por f ∗ : W → V , é
definido por:
(181) hf (v), wi = hv, f ∗ (w)i ∀v ∈ V, w ∈ W. ♦
Lema 6.5.2. Com as mesmas notações da definição 6.5.1, sejam A = {a1 , . . . ,
ak } uma base ortonormal de V e B = {b1 , . . . , bh } uma base ortonormal de W .
Então f ∗ é a função linear tal que:
µBA (f ∗ ) = (µAB f )† .
226 6. PRODUTO HERMITIANO

Definição 6.5.3. Seja V um espaço vetorial hermitiano. Um endomorfismo


f : V → V é dito hermitiano ou auto-adjunto se f = f ∗ , ou seja:
hf (v 1 ), v 2 i = hv 1 , f (v 2 )i ∀v 1 , v 2 ∈ V.
Analogamente, f é dito anti-hermitiano ou anti-auto-adjunto se f = −f ∗ , ou seja:
hf (v 1 ), v 2 i = −hv 1 , f (v 2 )i ∀v 1 , v 2 ∈ V. ♦

É necessário que o domı́nio e contra-domı́nio de f coincidam para que as de-


finições precedentes façam sentido.
Observação 6.5.4. Se f for hermitiano, temos que hf (v), vi ∈ R para todo
v ∈ V . De fato, hf (v), vi = hv, f (v)i = hf (v), vi. Analogamente, se f for anti-
hermitiano, temos que hf (v), vi ∈ iR para todo v ∈ V . De fato, hf (v), vi =
−hv, f (v)i = −hf (v), vi. ♦
Lembramos que uma matriz A ∈ M (n; C) é dita hermitiana se A = A† e anti-
hermitiana se A = −A† . Observamos que, coerentemente com a observação 6.5.4,
as entradas diagonais de uma matriz hermitiana são reais, enquanto as entradas
diagonais de uma matriz anti-hermitiana são imaginárias puras.
Lema 6.5.5. Um endomorfismo f : V → V é (anti-)hermitiano se, e somente
se, é representado a respeito de uma base ortonormal de V por uma matriz (anti)-
hermitiana.
Demonstração. É consequência imediata do lema 6.5.2. 
Observação 6.5.6. De novo o lema precedente é bem claro para f : Cn → Cn ,
v 7→ Av. De fato, temos que f é hermitiana se, e somente se:
hAv 1 , v 2 i = hv 1 , Av 2 i ∀v 1 , v 2 ∈ Cn
v †1 A† v 2 = v †1 Av 2 ∀v 1 , v 2 ∈ Cn
A† = A.
O mesmo vale para f anti-hermitiana, acrescentando o sinal negativo. ♦
6.5.1. Estrutura de espaço vetorial. As transformações (anti-)hermitianas
formam um espaço vetorial real, não complexo. De fato, sejam f, g : V → V
transformações (anti-)hermitianas. É fácil verificar que λf + µg é também (anti-
)hermitiana para todos λ, µ ∈ R. Contudo, se f for hermitiana, então if é anti-
hermitiana e vice-versa.
Notação 6.5.7. Denotamos por H(V ) e AH(V ) os conjuntos das funções li-
neares respetivamente hermitianas e anti-hermitianas de V a V . Denotamos por
H(n; C) e AH(n; C) os conjuntos das matrizes respetivamente hermitianas e anti-
hermitianas complexas de ordem n. ♦
Vimos que os conjuntos H(V ) e AH(V ) são subespaços vetoriais de End(V )R ,
sendo End(V ) o espaço dos endomorfismos de V . Fixando uma base ortonormal
de V , a matriz representativa µA determina dois isomorfismos de espaços vetoriais
6.5. FUNÇÕES LINEARES HERMITIANAS E ANTI-HERMITIANAS 227

reais µA : H(V ) → H(n; C) e µA : AH(V ) → AH(n; C). Temos também os seguinte


isomorfismos:
' '
Φ : H(V ) −→ AH(V ) Φ0 : H(n; C) −→ AH(n; C)
f 7→ if A 7→ iA,

que se estendem a automorfismos de End(V )R e M (n; C)R todos. Por isso, obtemos
os seguintes diagramas comutativos de espaços vetoriais reais:

Φ Φ0

( (
(182) H(V )
µA
/ H(n; C)  )
AH(V
µA
/ AH(n; C)
_ ' _ _ ' _
Φ Φ0

  (  ( 
End(V )R
µA
/ M (n; C)R End(V )R
µA
/ M (n; C)R .
' '

Valem as observações análogas às 4.5.9 e 4.5.10 no caso complexo.7 Em particu-


lar, temos as seguintes cisões:
M (n; C)R = H(n; C) ⊕ AH(n; C) End(V )R = H(V ) ⊕ AH(V ).
Enfim, uma reflexão é também uma transformação hermitiana. O seguinte teorema
é o análogo complexo do 4.5.11.
Teorema 6.5.8. Seja V um espaço vetorial hermitiano de dimensão n. O espaço
vetorial H(V ) admite uma base formada por n reflexões em relação a hiperplanos.
Observação 6.5.9. O leitor poderia estranhar que, a partir da noção de pro-
duto hermitiano (portanto, em um espaço complexo), se obtenham de modo tão
natural espaços vetoriais reais como H(V ) e AH(V ). Na verdade, não é uma sur-
presa, considerando que o produto hermitiano é em parte anti-linear, pois conjuga
os escalares de um lado; a conjugação é a estrutura real natural de C, portanto,
toda vez que a conjugação fica envolvida, estamos misturando a linguagem real e
a linguagem complexa. De fato, por exemplo, queremos que hv, vi seja um número
real (positivo), não um número complexo qualquer. Também a definição de ma-
triz adjunta envolve a conjugação, portanto é natural que H(n; C) e AH(n; C) se-
jam espaços vetoriais reais. Quando consideraremos formas bilineares simétricas
complexas, como hv, wi = v1 w1 + · · · + vn wn , então as noções correspondentes de
transformação simétrica e antissimétrica levarão naturalmente a espaços vetoriais
complexos.8 ♦

7
Para o leitor mais experiente, também no caso complexo há uma relação muito forte entre as
transformações unitárias e as anti-hermitianas, pois U(n) é um grupo de Lie (real, não complexo)
cuja álgebra de Lie é precisamente AH(n; C), com o colchete de Lie [A, B] := AB − BA.
8A mesma observação vale em relação ao grupo de Lie real U(V ) e ao grupo de Lie complexo
formado pelas transformações ortogonais a respeito de uma forma bilinear simétrica. Pensando
nas matrizes, U(n) é um grupo de Lie real, enquanto O(n; C) é complexo.
228 6. PRODUTO HERMITIANO

6.5.2. Confronto entre funções (anti-)hermitianas e (anits)simétricas.


Vamos usar a mesma notação da seção 6.4.1.
Lema 6.5.10. A função C-linear f : V → W é (anti-)hermitiana se, e somente
se, a função R-linear fR : VR → WR é (antis)simétrica.
Demonstração - Método I. (⇒) Temos que:
hhfR (v 1 ), v 2 ii = Re hf (v 1 ), v 2 i = ±Re hv 1 , f (v 2 )i = ±hhv 1 , fR (v 2 )ii.
(⇐) Sendo fR a realificação de uma função C-linear, comuta com as estruturas
complexas induzidas em VR e WR , que denotamos por J (usamos o mesmo sı́mbolo
para as duas). Temos que:
hf (v 1 ), v 2 i = hhfR (v 1 ), v 2 ii + ihhJfR (v 1 ), v 2 ii
= hhfR (v 1 ), v 2 ii + ihhfR (Jv 1 ), v 2 ii
= ±hhv 1 , fR (v 2 )ii ± ihhJv 1 , fR (v 2 )ii = ±hv 1 , f (v 2 )i. 
Demonstração - Método II. Sejam A uma base ortonormal de V e B uma
base ortonormal de W . As bases AR de VR e BR de WR são também ortonormais pelo
lema 6.3.3. Ademais, µAR BR (fR ) = (µAB (f ))R pelo lema 5.2.24. Dado que µAB (f )
é (anti-)hermitiana se, e somente se, (µAB (f ))R é (antis)simétrica (v. exercı́cio 6.14
da seção 6.2.5), obtemos a tese. 
O lema 6.5.10 pode ser enunciado também da seguinte maneira equivalente: uma
função R-linear g : VR → WR é a realificação de uma função (anti-)hermitiana se,
e somente se, comuta com as estruturas complexas e é (antis)simétrica. De fato,
comutar com as estruturas complexas equivale a ser a realificação de uma função
C-linear gC : V → W , portanto gC é (anti-)hermitiana se, e somente se, g é (an-
tis)simétrica. Poderı́amos resumir rapidamente esta afirmação da seguinte maneira:
para uma função R-linear, (anti-)hermitiana = (antis)simétrica + C-linear. Equi-
valentemente, (anti-)hermitiana = (antis)simétrica que comuta com J.
6.5.3. Exercı́cios.
6.36. Seja f : C2 → C3 , (x, y) 7→ (x + iy, x − iy, (1 − 2i)y). Calcule a adjunta f ∗ a
respeito do produto hermitiano canônico.
6.37. Encontre uma transformação hermitiana f : C3 → C3 (em relação ao produto
hermitiano canônico) tal que f (1, 0, i) = (2, 0, 0).
6.38. Adapte os enunciados dos exercı́cios 4.38 e 4.40 ao contexto complexo.
6.39. Seja f : C2 → C2 , (z, w) 7→ (z − iw, z), sendo o domı́nio dotado do produto
hermitiano h(z1 , w1 ), (z2 , w2 )i = 2z̄1 z2 + w̄1 w2 + iz̄1 w2 − iw̄1 z2 e sendo o contra-domı́nio
dotado do produto hermitiano h(z1 , w1 ), (z2 , w2 )i = 3z̄1 z2 + w̄1 w2 + z̄1 w2 + w̄1 z2 . Calcule
a adjunta f ∗ .
6.40. Seja f : V → V uma função C-linear. A seguinte identidade (polarization iden-
tity) segue imediatamente da sesquilinearidade do produto hermitiano:
(183) hf (v + w), v + w)i − hf (v), vi − hf (w), wi = hf (v), wi + hf (w), vi.
6.6. FUNÇÕES ANTI-UNITÁRIAS E ANTI-LINEARES (ANTI-)HERMITIANAS 229

(1) Demonstre que, se hf (v), vi = 0 para todo v ∈ V , então f = 0. (Sugestão: use


(183) em relação ao par (v, w) e, a seguir, em relação ao par (iv, w).)
(2) Demonstre que, se hf (v), vi ∈ R para todo v ∈ V , então f é hermitiana. Ana-
logamente, demonstre que, se hf (v), vi ∈ iR para todo v ∈ V , então f é anti-
hermitiana. (Sugestão: observe que hf (v), vi = ±hf (v), vi e aplique em sequência
a antissimetria do produto hermitiano, a definição de operador adjunto e o item
precedente.)

6.6. Funções anti-unitárias e anti-lineares (anti-)hermitianas


Um produto hermitiano em V induz naturalmente o seguinte produto hermitiano
no espaço vetorial conjugado V , que denotamos por hh · , · ii:
(184) hhv, wii := hv, wi = hw, vi.
É necessário conjugar hv, wi para que o produto hh · , · ii seja anti-linear na primeira
componente e linear na segunda.
Se A for uma base de V , logo também de V , sejam ν(A) e ν 0 (A) as matrizes
representativas respetivamente de h · , · i e hh · , · ii, conforme a definição (184). É
claro que ν 0 (A) = ν(A). Em particular, A é ortonormal para h · , · i se, e somente
se, o é para hh · , · ii. Por isso, se A for ortonormal, o isomorfismo ΦA , descrito no
corolário 5.1.7, é unitário.
Observação 6.6.1. Trocando as duas entradas de cada produto hermitiano na
fórmula (168), obtemos a decomposição de v em relação a A em V em vez que em
V . A mesma observação vale em relação às fórmulas (169) e (178). ♦
Dada uma função anti-linear f : V → W , sendo V e W hermitianos, podemos
pensá-la como função linear f : V → W . Graças à definição (184), aplicada a W ,
a função f : V → W continua sendo definida entre espaços vetoriais hermitianos,
portanto pode ser unitária ou (anti-)hermitiana, conforme as definições que já mos-
tramos. No caso particular das funções unitárias, é comum dar a seguinte definição.
Definição 6.6.2. Uma função anti-linear f : V → W é dita anti-unitária se for
unitária como função linear f : V → W , isto é, se:
hf (v 1 ), f (v 2 )i = hv 1 , v 2 i ∀v 1 , v 2 ∈ V. ♦

Observação 6.6.3. É claro que a relação entre funções unitárias e anti-unitárias


é bem diferente da entre funções hermitianas e anti-hermitianas. De fato, uma função
anti-unitária é anti-linear por definição, enquanto as funções anti-hermitianas são
lineares tão como as hermitianas. ♦
Observação 6.6.4. Observamos que não existe a noção de matriz anti-unitária
(enquanto existe a de matriz anti-hermitiana). Trata-se de um caso particular do
fato que representamos uma função anti-linear através de uma matriz complexa,
pensando-a como função linear no contra-domı́nio conjugado (não existe a noção de
matriz anti-complexa). Além disso, não faria sentido falar de função anti-ortogonal,
pois, no caso real, as funções lineares e as anti-lineares coincidem. ♦
230 6. PRODUTO HERMITIANO

6.6.1. Exercı́cios.
6.41. Encontre uma transformação anti-unitária f : C3 → C3 , com o produto hermiti-
ano canônico, tal que f (1, i, 1) = (i, −1, i).

6.7. Orientação complexa e funções unitárias especiais


Vimos que a realificação de um espaço vetorial complexo fica orientada cano-
nicamente; agora vamos definir a noção de orientação para um espaço complexo,
sem realificá-lo. Comecemos por algumas considerações algébricas muito simples.
Indicamos por C∗ o conjunto dos números complexos não nulos, por R>0 o conjunto
dos reais estritamente positivos e por U(1) o conjunto dos números complexos de
módulo 1 (o qual coincide com o grupo unitário U(1)). Dotando C∗ , R>0 e U(1) do
produto correspondente, obtemos o seguinte isomorfismo de grupos:
'
(185) χ : C∗ −→ R>0 × U(1),
definido das duas seguintes maneiras equivalentes:
z

reiθ 7→ (r, eiθ ) z 7→ |z|, |z| .
Sejam R∗ o conjunto dos números reais não nulos e Z2 = {−1, 1}. O isomorfismo
(185) se restringe ao seguinte:
'
(186) χ : R∗ −→ R>0 × Z2 .
Dado um número x ∈ R∗ , as três seguintes condições são equivalentes:
x
(187) x>0 |x|
=1 χ(x) = (|x|, 1).
O mesmo vale para z ∈ C, ou seja, as três seguintes condições são equivalentes:
z
(188) z ∈ R>0 |z|
=1 χ(z) = (|z|, 1).
Consideremos um espaço vetorial real V e duas bases ordenadas A e B. Por
definição A e B representam a mesma orientação se, e somente se, det µ(A, B) verifica
uma das condições equivalentes (187). Podemos estender essa definição ao caso
complexo, considerando as condições (188). Sejam V um espaço vetorial complexo
de dimensão n ≥ 1 e BV o conjunto das bases ordenadas de V . Introduzimos a
seguinte relação de equivalência em BV :
A ∼ B ⇔ det µ(A, B) ∈ R>0 .
O conjunto BV fica dividido em infinitas classes de equivalência, que agora vamos
descrever. Sejam A = {a1 , . . . , an } uma base ordenada de V e Aθ := {eiθ a1 , a2 , . . . ,
0
an }. Temos que µ(Aθ , Aθ0 ) é a matriz diagonal com entradas (ei(θ −θ) , 1, . . . , 1), cujo
0
determinante é ei(θ−θ ) . Por isso, Aθ ∼ Aθ0 se, e somente se, θ − θ0 ∈ 2πZ, portanto,
ao variar de θ ∈ [0, 2π), obtemos bases não equivalentes. Seja B outra base ordenada
de V e seja det µ(A, B) = ρeiθ . Então det µ(Aθ , B) = det µ(Aθ , A) det µ(A, B) =
e−iθ ρeiθ = ρ ∈ R>0 , logo B ∼ Aθ . Isso mostra que as classes da forma [Aθ ] são todas
as possı́veis.
6.7. ORIENTAÇÃO COMPLEXA E FUNÇÕES UNITÁRIAS ESPECIAIS 231

Definição 6.7.1. Uma orientação complexa de V é a escolha de uma classe de


equivalência em BV . Um espaço vetorial complexo orientado é um espaço vetorial
com uma orientação fixada. Às vezes denotaremos por O uma orientação fixada em
V. ♦
Fixando a base ordenada A, obtemos uma bijeção entre as orientações complexas
de V e U(1), que associa à orientação [Aθ ] o número complexo eiθ ∈ U(1). Se
V = Cn , há uma orientação canônica, ou seja, a classe de equivalência da base
canônica.
Definição 6.7.2. Sejam (V, O) e (W, O0 ) espaços vetoriais orientados da mesma
dimensão e seja f : V → W um isomorfismo. Dizemos que f respeita as orientações
se, dada uma base A ∈ O, temos que f (A) ∈ O0 . Usamos a notação f (O) = O0 .
No caso em que V = W e os dois têm a mesma orientação, dizemos que f respeita
a orientação de V . ♦
Observação 6.7.3. Como no caso real, um automorfismo f : V → V respeita
toda orientação de V se, e somente se, det(f ) ∈ R>0 . Em caso contrário, não respeita
nenhuma orientação. ♦
Notação 6.7.4. Denotamos por GL+ (V ) o conjunto dos automorfismos de V
que respeitam a orientação. Denotamos por GL+ (n; C) o subconjunto de GL(n; C)
formado pelas matrizes com determinante real positivo. ♦
O leitor pode verificar que GL+ (V ) é um subgrupo de GL(V ) e que GL+ (n; C)
é um subgrupo de GL(n; C), portanto, fixando uma base ordenada A de V , fica
definido o seguinte diagrama comutativo de grupos:
µA
(189) GL+ (V ) / GL+ (n;
_ '  C)
_

 µA

GL(V ) / GL(n; C).
'

Definição 6.7.5. Sejam V e W espaços vetoriais hermitianos orientados da


mesma dimensão. Um isomorfismo f : V → W é dito unitário especial se for unitário
e respeitar as orientações. ♦
Podemos também definir a noção de matriz unitária especial: trata-se de uma
matriz unitária com determinante real positivo. Como o módulo do determinante
de uma matriz unitária é 1, o determinante de uma matriz ortogonal especial é igual
a 1.
Definição 6.7.6. Uma matriz A ∈ M (n; C) é dita unitária especial se for
unitária e det(A) = 1. ♦
Notação 6.7.7. Denotamos por SU(V ) o conjunto dos automorfismos unitários
especiais de V . Denotamos por SU(n) o conjunto das matrizes unitárias especiais
de ordem n. ♦
232 6. PRODUTO HERMITIANO

O leitor pode verificar que SU(V ) é um subgrupo de U(V ) e que SU(n) é um


subgrupo de U(n). Em particular, SU(V ) = U(V ) ∩ GL+ (V ) e SU(n) = U(n) ∩
GL+ (n; C). Um automorfismo f : V → V é unitário especial se, e somente se, for
representado, a respeito de uma base ortonormal de V , por uma matriz unitária
especial, portanto os diagramas (179) e (189) podem ser ampliados da seguinte
maneira:

(190) SU(V ) r
µA
/ SU(n)  s
Mm '
Ll

{ $ &
, U(n) z
µA

q r
'
U(V ) GL+ (V ) µA 2 GL+ (n; C)
Ll ' Kk

# z $ x
GL(V )
µA
/ GL(n; C).
'

6.7.1. Exercı́cios.
6.42. Verifique que:
  
a −b̄ 2 2
SU(2) = , a, b ∈ C, |a| + |b| = 1 .
b ā
6.43. Encontre uma função unitária especial f : C2 → C2 tal que f √1 , √i 1+i
√ , √1
 
2 2
= 3 3
.

6.44. Considere o subespaço V = h(1, i, i−2), (1, i, i)i ⊂ C3 , com a orientação represen-
tada pela base {(1, i, i − 2), (1, i, i)}, e o espaço C2 com a orientação canônica. Estabeleça
se o isomorfismo f (x, y, z) = (x, z) respeita as orientações.

6.8. Produtos hermitianos e estruturas reais


A exposição deste capı́tulo foi baseada no confronto entre o caso real e o caso
complexo, refinando a correspondência (120). Também podemos refinar a corres-
pondência (138), descrevendo os espaços vetoriais euclidianos com a linguagem dos
espaços vetoriais hermitianos, acrescentando uma estrutura real compatı́vel.
6.8.1. Confronto entre produto interno e produto hermitiano – Parte
II. No exemplo padrão de Cn com o produto hermitiano canônico, Rn é o conjunto
dos pontos fixos da conjugação e o produto interno canônico de Rn é a restrição do
hermitiano. Ademais, a conjugação é uma função anti-unitária. Reciprocamente, o
produto hermitiano canônico é a extensão natural do interno em Rn por sesquili-
nearidade, ou seja, se obtém impondo a C-linearidade na segunda componente e a
C-anti-linearidade na primeira.
Em geral, consideremos um espaço vetorial complexo V com estrutura real σ.
Dado um produto hermitiano h · , · i em V , a respeito do qual σ é anti-unitária,
podemos definir o seguinte produto interno em fix(σ):
(191) hhv, wii := hv, wi,
ou seja, hh · , · ii = h · , · i|fix(σ)×fix(σ) . Verificaremos daqui a pouco que se trata efe-
tivamente de um produto interno (v. lema 6.8.1). Equivalentemente, consideremos
6.8. PRODUTOS HERMITIANOS E ESTRUTURAS REAIS 233

um espaço vetorial real W e a sua complexificação WC com a estrutura complexa


canônica σ0 . Dado um produto interno hh · , · ii em W , podemos definir o seguinte
produto hermitiano em WC , a respeito do qual σ0 é anti-unitária:
(192) h(v 1 , v 2 ), (w1 , w2 )i := (hhv 1 , w1 ii + hhv 2 , w2 ii) + i(hhv 1 , w2 ii − hhv 2 , w1 ii).
Verificaremos daqui a pouco que se trata efetivamente de um produto hermitiano
e que σ0 é anti-unitária (v. lema 6.8.2). Obtemos a seguinte correspondência, que
refina a (138) acrescentando a informação sobre o produto interno:
 
Φ
  Espaços vetoriais
Espaços vetoriais &
 
(193) f hermitianos com estrutura ,
euclidianos 
Ψ
real anti-unitária 

onde as bijeções Φ e Ψ são definidas da seguinte maneira:


• Φ associa ao par (W, hh · , · ii) a tripla (WC , σ0 , h · , · i), sendo h · , · i definido
por (192);
• Ψ associa à tripla (V, σ, h · , · i) o par (fix(σ), hh · , · ii), sendo hh · , · ii definido
por (191).
Vamos demonstrar que Φ e Ψ estão bem definidas e inversas entre si a menos de
isomorfismo canônico. Os três seguintes lemas provam isso.
Lema 6.8.1. Sejam (V, h · , · i) um espaço vetorial hermitiano e σ uma estrutura
real anti-unitária em V . A fórmula (191) define um produto interno em fix(σ).
Demonstração. Vamos demostrar que, se v, w ∈ fix(σ), então hv, wi ∈ R. De
fato:
(?)
hv, wi = hσ0 (v), σ0 (w)i = hv, wi
logo hv, wi ∈ R. Na igualdade (?) usamos a anti-unitariedade de σ0 . Como h · , · i é
R-bilinear, também hh · , · ii o é. Como h · , · i é antissimétrico, quando a imagem for
real é simétrico. Enfim, sendo h · , · i definido positivo, também hh · , · ii o é. 
Lema 6.8.2. Seja (W, hh · , · ii) um espaço vetorial euclidiano. A fórmula (192)
define um produto hermitiano em WC , a respeito do qual a estrutura real canônica
σ0 é anti-unitária.
Demonstração. Como hh · , · ii é R-bilinear, o leitor pode verificar que também
h · , · i o é. Além disso:
h(v 1 , v 2 ), i(w1 , w2 )i = h(v 1 , v 2 ), (−w2 , w1 )i = (−hhv 1 , w2 ii
+ hhv 2 , w1 ii) + i(hhv 1 , w1 ii + hhv 2 , w2 ii) = ih(v 1 , v 2 ), (w1 , w2 )i.
Uma conta análoga mostra que hi(v 1 , v 2 ), (w1 , w2 )i = −ih(v 1 , v 2 ), (w1 , w2 )i, portanto
h · , · i é sesquilinear. Como hh · , · ii é simétrico, é imediato verificar que h · , · i é
antissimétrico. Ademais:
h(v 1 , v 2 ), (v 1 , v 2 )i = hhv 1 , v 1 ii + hhv 2 , v 2 ii,
portanto, como hh · , · ii é definido positivo, também h · , · i o é. Enfim:
hσ0 (v 1 , v 2 ), σ0 (w1 , w2 )i = hv 1 , −v 2 ), (w1 , −w2 )i = (hhv 1 , w1 ii
234 6. PRODUTO HERMITIANO

+ hhv 2 , w2 ii) − i(hhv 1 , w2 ii − hhv 2 , w1 ii) = h(v 1 , v 2 ), (w1 , w2 )i,


portanto σ0 é anti-unitária. 
Lema 6.8.3. As funções Φ e Ψ da bijeção (193) são inversas entre si a menos
de isomorfismo canônico.
Demonstração. Aplicando Φ a (W, hh · , · ii) obtemos (WC , σ0 , h · , · i). Apli-
cando Ψ obtemos (fix(σ0 ), hhh · , · iii). Temos o isomorfismo canônico ι : W → fix(σ0 ),
w 7→ (w, 0), portanto devemos demonstrar que ι∗ hh · , · ii = hhh · , · iii. De fato, dados
w1 , w2 ∈ W , temos que:
(191) (192)
hhhι(w1 ), ι(w2 )iii = hhh(w1 , 0), (w2 , 0)iii = h(w1 , 0), (w2 , 0)i = hhw1 , w2 ii,
portanto ι∗ hh · , · ii = hhh · , · iii.
Analogamente, aplicando Ψ a (V, σ, h · , · i) obtemos (fix(σ), hh · , · ii). Aplicando
Φ obtemos (fix(σ)C , σ0 , hhh · , · iii). Temos o isomorfismo canônico ϕ : fix(σ)C → V ,
(w1 , w2 ) 7→ v 1 + iv 2 , que comuta com as estruturas reais, portanto devemos de-
monstrar que ϕ∗ hhh · , · iii = h · , · i. De fato, dados (v 1 , v 2 ), (w1 , w2 ) ∈ fix(σ)C , temos
que:
hϕ(v 1 ,v 2 ), ϕ(w1 , w2 )i = hv 1 + iv 2 , w1 + iw2 i
= (hv 1 , w1 i + hv 2 , w2 i) + i(hv 1 , w2 i − hv 2 , w1 i)
(191)
= (hhv 1 , w1 ii + hhv 2 , w2 ii) + i(hhv 1 , w2 ii − hhv 2 , w1 ii)
(192)
= hhh(v 1 , v 2 ), (w1 , w2 )iii,
portanto ϕ∗ hhh · , · iii = h · , · i. 
CAPı́TULO 7

Formas canônicas dos endomorfismos

7.1. Diagonalização
Vamos agora estudar as formas canônicas dos endomorfismos. Isso significa que,
dado um endomorfismo f : V → V , sendo V finitamente gerado, procuramos uma
base A de V que torne a matriz representativa particularmente simples. Isso pode
tornar mais fácil entender a estrutura de f , portanto se trata de um tópico com
várias aplicações significativas.
Observação 7.1.1. Queremos deixar claro que estamos fixando a mesma base
A para V como domı́nio e como contra-domı́nio. Se admitı́ssemos a possibilidade
de fixar duas bases distintas, poderı́amos sempre representar um endomorfismo f
da seguinte forma:
 
Ik 0
(194) µAB (f ) = ,
0 0
sendo k a dimensão da imagem de f . De fato, seja A0 = {v k+1 , . . . , v n } uma base
de Ker f . Completemos A0 a uma base A = {v 1 , . . . , v k , v k+1 , . . . , v n } de V . Como
mostramos na demostração da fórmula de Grassmann, B 0 := {f (v 1 ), . . . , f (v k )} é
uma base de Im f . Completemos B 0 a uma base B = {f (v 1 ), . . . , f (v k ), wk+1 , . . . , wn }
de V . Então µAB (f ) é dada por (194). Observamos que a matriz (194) só depende
de k, ou seja, da dimensão de Im f , que coincide com o posto de qualquer matriz
representativa. Portanto, qualquer matriz de posto k é µ-equivalente (v. def. 2.6.14)
à (194). Isso mostra que duas matrizes com o mesmo posto são µ-equivalentes. Vice-
versa, é claro que duas matrizes µ-equivalentes têm o mesmo posto, pois representam
o mesmo endomorfismo, portanto a dimensão da imagem é a mesma. Isso prova que
duas matrizes são µ-equivalentes se, e somente se, têm o mesmo posto. ♦
Voltando a considerar só uma base A de V , um caso particularmente interessante
se verifica quando µA (f ) é diagonal. De fato, antes de tudo as matrizes diagonais
são muito simples a serem tradadas; ademais, é fácil verificar que µA (f ) é diagonal
se, e somente se, todo elemento de A é um autovetor de f , portanto, neste caso, f
atua multiplicando cada elemento de A pelo autovalor correspondente. Isso torna
bastante fácil descrever a ação de f . Enfim, os autovalores de f são os elementos
da diagonal de µA (f ), logo ficam evidenciados explicitamente. Por estes motivos,
o primeiro objetivo desta seção consiste em estabelecer quando um endomorfismo
pode ser representado por uma matriz diagonal.
Definição 7.1.2. Um endomorfismo f : V → V , sendo V finitamente gerado, é
dito diagonalizável se existe uma base A de V tal que µA (f ) é uma matriz diagonal.
235
236 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Uma matriz A ∈ M (n; K) é dita diagonalizável se o endomorfismo correspondente


ϕA : Kn → Kn , v →
7 Av, é diagonalizável. ♦
Equivalentemente, A é diagonalizável se, e somente se, é semelhante a uma matriz
diagonal.
Lema 7.1.3. Sejam f : V → V um endomorfismo e A = {a1 , . . . , an } uma base
de V . A matriz representativa µA (f ) é diagonal se, e somente se, todo vetor ai é
um autovetor de f . Logo, f é diagonalizável se, e somente se, existe uma base de V
formada por autovetores de f .
Demonstração. (⇐) Seja A = {a1 , . . . , an } uma base de autovetores, sendo
f (ai ) = λi ai (os autovalores não são necessariamente distintos). Então, por definição
de matriz representativa, a i-ésima coluna de µA (f ) é o vetor (0, . . . , 0, λi , 0, . . . , 0)T ,
logo µA (f ) é a matriz diagonal com entradas (λ1 , . . . , λn ). (⇒) Seja A = {a1 , . . . , an }
uma base tal que µA (f ) é a matriz diagonal com entradas (λ1 , . . . , λn ). Então a i-
ésima coluna de µA (f ) é o vetor (0, . . . , 0, λi , 0, . . . , 0)T , portanto, por definição de
matriz representativa, f (ai ) = λi ai , logo cada vetor ai é um autovetor de f . 
O lema precedente caracteriza os endomorfismos diagonalizáveis, mas não é fácil
aplicá-lo concretamente, pois não mostra um modo concreto para estabelecer se
existe uma base de autovetores. O seguinte teorema mostra um critério explı́cito
para verificar se uma matriz é diagonalizável, o qual será facilmente generalizável
a qualquer endomorfismo. Lembramos que um polinômio é dito completamente
redutı́vel se for igual a um produto de fatores de primeiro grau.
Teorema 7.1.4. Um endomorfismo f : V → V é diagonalizável se, e somente
se, valem as duas seguintes condições:
(1) χf (λ) é completamente redutı́vel;
(2) para todo autovalor λ̃ de f , mg(λ̃) = ma(λ̃).
Demonstração. (⇒) Seja ∆ uma matriz diagonal que representa f , com en-
tradas (λ̃1 , . . . , λ̃n ). Temos que χf (λ) = χ∆ (λ) = (λ̃1 − λ) · · · (λ̃n − λ). Isso mostra
que χf (λ) é completamente redutı́vel. Ademais, seja ma(λ̃) = k. Isso significa que,
no polinômio caracterı́stico, o fator λ̃ − λ aparece k vezes. Logo, a menos da ordem,
podemos supor que o polinômio seja da forma χf (λ) = (λ̃−λ)k (λ̃k+1 −λ) · · · (λ̃n −λ),
sendo λi 6= λ̃ para k + 1 ≤ i ≤ n. Seja A = {a1 , . . . , an } uma base de V tal que
µA (f ) = ∆. Temos que f (ai ) = λ̃ai para 1 ≤ i ≤ k, logo {a1 , . . . , ak } é uma famı́lia
independente contida em Vλ̃ , portanto mg(λ̃) ≥ k = ma(λ̃). Pelo lema 3.6.23,
mg(λ̃) = ma(λ̃). (⇐) Sejam λ̃1 , . . . , λ̃k os autovalores distintos de f . Como χf (λ) é
completamente redutı́vel, temos que χf (λ) = (λ̃1 − λ)m1 · · · (λ̃k − λ)mk , sendo, por
definição, mi = ma(λ̃i ). Logo, m1 + · · · + mk = n. Como ma(λ̃i ) = mg(λ̃i ) por
hipótese, para i entre 1 e k podemos escolher uma base {v i,1 , . . . , v i,mi } do auto-
espaço Vλ̃i . Se provarmos que a união destas bases é independente, pelo fato que
m1 + · · · + mk = n podemos concluir que se trata de uma base de V formada por
autovetores, logo f é diagonalizável pelo teorema 7.1.3. Seja:
µ1,1 v 1,1 + · · · + µ1,m1 v 1,m1 + · · · + µk,1 v k,1 + · · · + µk,mk v k,mk = 0.
7.1. DIAGONALIZAÇÃO 237

Seja wi := µi,1 v i,1 + · · · + µi,mi v i,mi . Logo w1 + · · · + wk = 0 e wi ∈ Vλ̃i . Suponhamos


por absurdo que os vetores w1 , . . . , wk não sejam todos nulos. A menos da ordem,
sejam w1 , . . . , wh 6= 0, sendo 1 ≤ h ≤ k, e wk+1 = · · · = wn = 0. Pelo lema 3.6.20,
a famı́lia {w1 , . . . , wh } é independente, logo não pode acontecer que a soma seja 0,
pois o coeficiente de cada vetor na soma é 1, enquanto teria que ser 0. Por isso,
wi = 0 para todo i. Logo µi,1 v i,1 + · · · + µi,mi v i,mi = 0. Como {v i,1 , . . . , v i,mi } é uma
base de Vλ̃i , µi,1 = · · · = µi,mi = 0. 

Corolário 7.1.5. Se χf (λ) for completamente redutı́vel e as raı́zes forem todas


distintas, então f é diagonalizável.

Demonstração. É consequência imediata do corolário 3.6.24, pois, se valer a


hipótese, todos os autovalores têm multiplicidade algébrica 1, logo a multiplicidade
geométrica coincide com a algébrica. 

Seja A ∈ M (n; K) uma matriz diagonalizável e seja A = {v 1 , . . . , v n } uma base


de Kn formada por autovetores de A. Uma matriz diagonal semelhante a A é a
matriz ∆, cujas entradas são os autovetores (λ1 , . . . , λn ) tais que Av i = λi v i . Logo,
existe uma matriz invertı́vel C tal que ∆ = C −1 AC. Em particular, se C for a base
canônica de Kn , podemos escolher C = µ(C, A) = [v 1 | · · · | v n ]. Portanto, uma
matriz de transição de A a ∆ é a matriz cujas colunas são os autovetores da base
correspondente a ∆. Podemos provar isso diretamente:

C −1 AC = C −1 [Av 1 | · · · | Av n ] = C −1 [λ1 v 1 | · · · | λn v n ] = C −1 C∆ = ∆.

Para um endomorfismo genérico f : V → V , sejam A uma base de V e A = µA (f ).


Então ∆ = C −1 AC e C pode ser a matriz cujas colunas contêm os coeficientes dos
autovetores correspondentes a ∆ em relação a A.

Exercı́cio 7.1.6. Dadas as matrizes:


   
4 −6 0 0 −2 0 0 0
0 −2 0 0 0 1 0 0
A1 = 0 0 −1 0 

−4 0 −2 0  ,
A2 =  
6 −6 0 −2 4 0 0 −2

para i = 1, 2:
(1) estabeleça se Ai é diagonalizável;
(2) se Ai for diagonalizável, escreva uma matriz diagonal semelhante e uma
matriz de mudança de base.

Resolução. Temos que χA1 (λ) = (λ + 2)2 (λ + 1)(λ − 4). Antes de tudo,
isso mostra que o polinômio caracterı́stico é completamente redutı́vel. Ademais, os
autovalores são −2, −1 e 4, com multiplicidade algébrica respetivamente 2, 1 e 1.
Por isso já sabemos que a multiplicidade geométrica de −1 e 4 é 1. Calculemos a
multiplicidade geométrica de −2. O auto-espaço V−2 é o conjunto das soluções de
238 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

(A1 + 2I4 )v = 0, ou seja:


    
6 −6 0 0 x 0
0 0 0 0  y  0
(195) 0 0 1 0  z  = 0 .
    
6 −6 0 0 w 0
Como rk(A + 2I4 ) = 2, o sistema tem ∞2 soluções, logo mg(−2) = 2. Isso mostra
que A1 é diagonalizável.
Uma matriz diagonal semelhante é a seguinte:
 
−2 0 0 0
 0 −2 0 0
∆= .
0 0 −1 0
0 0 0 4
Para acharmos uma matriz de mudança de base, temos que achar uma base de cada
auto-espaço. Resolvendo a equação (195), obtemos que V−2 = h(1, 1, 0, 0), (0, 0, 0, 1)i.
Com uma conta análoga obtemos V−1 = h(0, 0, 1, 0)i e V4 = h(1, 0, 0, 1)i. Portanto
temos que ∆ = C −1 A1 C, sendo:
 
1 0 0 1
1 0 0 0
C= 0 0 1 0 .

0 1 0 1
É importante que a ordem dos autovetores, como colunas de C, corresponda à ordem
dos autovalores, como entradas diagonais de ∆.
Temos que χA2 (λ) = (λ + 2)3 (λ − 1), portanto o polinômio caracterı́stico é
completamente redutı́vel. Ademais, os autovalores são −2 e 1, com multiplicidade
algébrica respetivamente 3 e 1. Por isso já sabemos que a multiplicidade geométrica
de 1 é 1. Calculemos a multiplicidade geométrica de −2. O auto-espaço V−2 é o
conjunto das soluções de (A2 + 2I4 )v = 0, ou seja:
    
0 0 0 0 x 0
 0 3 0 0  y  0
−4 0 0 0  z  = 0 .
    
4 0 0 0 w 0
Como rk(A + 2I4 ) = 2, o sistema tem ∞2 soluções, logo mg(−2) = 2 6= 3 = ma(−2).
Isso mostra que A2 não é diagonalizável. ♦

Exercı́cio 7.1.7. Estabeleça para quais valores de k ∈ R a seguinte matriz é


diagonalizável:  
−9 k 3
A =  0 k 0 .
3 0 −1
Resolução. Aplicando a regra de Laplace à segunda linha, obtemos χA (λ) =
(k − λ)λ(λ + 10), portanto é completamente redutı́vel para todo k. Ademais, se
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 239

k 6= 0, −10, então A tem três autovalores distintos, portanto é diagonalizável. Se


k = 0, temos ma(0) = 2, portanto temos que calcular a multiplicidade geométrica.
Para calcular V0 , temos que resolver Av = 0, ou seja:
    
−9 0 3 x 0
 0 0 0  y  = 0 .
3 0 −1 z 0
Como rk(A) = 1, temos que mg(0) = 2, portanto A é diagonalizável. Enfim,
para k = −10, temos ma(−10) = 2, portanto temos que calcular a multiplicidade
geométrica. Para calcular V−10 , temos que resolver (A + 10I4 )v = 0, ou seja:
    
1 −10 3 x 0
0 0 0  y  = 0 .
3 0 −1 z 0
Como rk(A) = 2, temos que mg(−10) = 1, portanto A não é diagonalizável. Afinal,
A é diagonalizável para todo k 6= −10. ♦

Afirmamos no enunciado do lema 7.1.3 que um endomorfismo f : V → V é


diagonalizável se, e somente se, existe uma base de V formada por autovetores de
f . Podemos formular o mesmo conceito da seguinte maneira equivalente.
Lema 7.1.8. Seja f : V → V um endomorfismo e sejam λ1 , . . . , λk os autovalores
distintos de f . O endomorfismo f é diagonalizável se, e somente se, V é soma direta
dos auto-espaços de f , ou seja:
V = Vλ1 ⊕ · · · ⊕ Vλk .
Demonstração. É claro que Vλi ∩ Vλj = {0} para i 6= j. De fato, se v ∈
Vλi ∩ Vλj , então f (v) = λi v = λj v, logo (λi − λj )v = 0. Como λi 6= λj , temos
que v = 0. Isso implica que Vλ1 ⊕ · · · ⊕ Vλk ⊂ V . Agora podemos demonstrar o
enunciado. (⇒) Pelo lema 7.1.3 existe uma base A de V formada por autoveto-
res de f . Seja A = {v 1,1 , . . . , v 1,m1 , . . . , v k,1 , . . . , v k,mk }, sendo Ai = {v i,1 , . . . , v i,mi }
uma base de Vλi . Isso implica que dim Vλi = mi e dim A = m1 + · · · + mk , por-
tanto dim(Vλ1 ⊕ · · · ⊕ Vλk ) = dim V . Como Vλ1 ⊕ · · · ⊕ Vλk ⊂ V , vale a igual-
dade. (⇐) Seja Ai = {v i,1 , . . . , v i,mi } uma base de Vλi para cada i e seja A =
{v 1,1 , . . . , v 1,m1 , . . . , v k,1 , . . . , v k,mk }. Isso implica que A é uma base de Vλ1 ⊕· · ·⊕Vλk .
Como Vλ1 ⊕ · · · ⊕ Vλk = V , então A é uma base de V , logo V admite uma base
formada por autovetores de f . Pelo lema 7.1.3, f é diagonalizável. 
7.2. Triangularização e forma canônica de Jordan
Quando um endomorfismo não for diagonalizável, podemos procurar uma forma
canônica intermediária, menos simples que a diagonal, mas melhor que uma repre-
sentação através de uma matriz genérica. Começamos pedindo, se possı́vel, que
a matriz representativa seja triangular superior (podemos também pedir que seja
triangular inferior, só se trata de uma convenção). Dessa maneira, como no caso di-
agonal, os autovalores continuam sendo os elementos da diagonal principal, portanto
ficam evidenciados.
240 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Definição 7.2.1. Um endomorfismo f : V → V , sendo V finitamente gerado, é


dito triangularizável se for representável através de uma matriz triangular superior.
Uma matriz A ∈ M (n; K) é dita triangularizável se o endomorfismo correspondente
ϕA : Kn → Kn , v 7→ Av, é triangularizável. ♦
Em particular, uma matriz é trinagularizável se, e somente se, é semelhante a
uma matriz triangular superior. É claro que um endomorfismo (ou uma matriz)
diagonalizável é triangularizável, pois uma matriz diagonal é um caso particular de
matriz triangular superior.
Teorema 7.2.2. Seja V um espaço vetorial sobre K. Um endomorfismo f : V →
V é triangularizável se, e somente se, o polinômio caracterı́stico χf (λ) é completa-
mente redutı́vel em K[λ].
Demonstração. (⇒) Seja T = [tij ] uma matriz triangular que representa f .
Então χf (λ) = χT (λ) = (t11 −λ) · · · (tnn −λ), portanto é completamente redutı́vel em
K[λ]. (⇐) Provemos o resultado por indução sobre n = dim V . Se n = 1 o resultado
é óbvio, pois qualquer matriz de ordem 1 é triangular superior. Suponhamos que
valha para n − 1. Sendo χf (λ) completamente redutı́vel, existe um autovalor λ̃1 .
Seja v 1 um autovetor correspondente e completemos {v 1 } a uma base de V . A
matriz representativa correspondente tem a seguinte forma:
 
λ̃1 bT
A= .
0 B
Logo χf (λ) = (λ̃1 − λ)χB (λ), portanto, sendo χf (λ) completamente redutı́vel,
também χB (λ) o é. Como B ∈ M (n − 1; K), pela hipótese de indução existe uma
matriz invertı́vel C tal que T = C −1 BC é triangular superior. Consideremos a
seguinte matriz:
 
1 0T
D= .
0 C
Temos:      
−1 1 0T λ̃1 bT 1 0T λ̃1 bT C
D AD = = .
0 C −1 0 B 0 C 0 T
Como T é triangular superior, também D−1 AD o é. 
Corolário 7.2.3. Se V for um espaço vetorial complexo, todo endomorfismo
f : V → V é triangularizável.
Demonstração. Pelo teorema fundamental da álgebra, todo polinômio com-
plexo não constante é completamente redutı́vel, portanto χf (λ) é completamente
redutı́vel. 
Agora podemos demonstrar a fórmula (123).
Lema 7.2.4. Seja A ∈ M (n; C). Então:
det(AR ) = |det A|2 .
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 241

Em particular, det(AR ) ≥ 0 para toda A e AR é invertı́vel se, e somente se, A o é.1


Demonstração. Provemos a tese por indução sobre n. Para n = 1, seja A =
[a + ib]. Então:  
a −b
AR = ,
b a
logo det(AR ) = a2 + b2 = |det A|2 . Suponhamos que a tese valha para n − 1. Seja
T uma matriz triangular superior semelhante a A. Temos que A = CT C −1 , logo
AR = CR TR CR−1 , portanto det AR = det TR . Sejam λ1 = a1 + ib1 , . . ., λn = an + ibn
os autovalores de A. Temos que:
a1 −b1 · · · · ·
 
a1 + ib1 · · · ·  b 1 a1 · · · · · 
 

T = . . .
. ⇒

TR =  . . .
. .. 
. . . . .
. 
  
an + ibn  an −bn 
b n an
Obviamente det T = (a1 +ib1 ) · · · (an +ibn ). Seja T0 a submatriz de T obtida tirando
a primeira linha e a primeira coluna. Segue imediatamente que (T0 )R é a submatriz
de TR obtida tirando as primeiras duas linhas e colunas. Como det(T0 ) = (a2 +
ib2 ) · · · (an +ibn ), pela hipótese de indução temos que det(T0 )R = (a22 +b22 ) · · · (a2n +b2n ).
Aplicando a regra de Laplace às primeiras duas colunas de TR obtemos que det TR =
a21 det(T0 )R + b21 det(T0 )R = (a21 + b21 )(a22 + b22 ) · · · (a2n + b2n ) = |det T |2 . 
Vamos agora mostrar que, quando um endomorfismo for triangularizável, existe
um modo canônico de escolher uma matriz representativa triangular, dito forma
canônica de Jordan.
7.2.1. Blocos de Jordan.
Definição 7.2.5. Dada uma matriz A = [aij ] ∈ M (n; K), chamamos de:
• sobre-diagonal o conjunto das entradas imediatamente acima da diagonal
principal, ou seja, o conjunto das entradas ai,i+1 , para 1 ≤ i ≤ n − 1.
• k-sobre-diagonal, para 0 ≤ k ≤ n − 1, o conjunto das entradas de A que
estão k posições acima da diagonal principal, ou seja, da forma ai,i+k , sendo
1 ≤ i ≤ n − k.

É claro que, para k = 0, a k-sobre-diagonal é a diagonal principal, para k = 1 é
a sobre-diagonal e, para k = n − 1, é formada pelo único elemento a1,n .
Definição 7.2.6. O bloco de Jordan de ordem n, associado ao autovalor λ̃, é a
matriz Bn (λ̃) ∈ M (n; K) tal que:
1Para o leitor mais experiente, podemos também provar que det(AR ) > 0 quando A ∈ GL(n; C)
com um simples argumento topológico. Como GL(n; C) é conexo (por caminhos), existe um ca-
minho ϕ : I → GL(n; C) que une A à identidade. Realificando, obtemos um caminho ϕR : I →
GL(2n; R) que une AR à identidade. Isso mostra que AR pertence à mesma componente conexa da
identidade, a qual é formada pelas matrizes com determinante positivo. Contudo, para demonstrar
que GL(n; C) é conexo precisamos da forma canônica de Jordan.
242 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

• as entradas da diagonal principal são iguais a λ̃;


• as entradas da sobre-diagonal são iguais a 1;
• as demais entradas são nulas.

Trata-se portanto da seguinte matriz triangular superior:
 
λ̃ 1 0 · · · 0 0
 0 λ̃ 1 · · · 0 0 
 
 .. .. .. .. .
. .
.
(196) Bn (λ̃) =  . . . . .

 . . 
 0 0 0 · · · λ̃ 1 
0 0 0 · · · 0 λ̃
Temos que:
(197) Bn (λ̃) = λ̃In + Nn ,
onde as entradas de Nn são iguais a 1 na sobre-diagonal e a 0 nas demais posições.
É fácil verificar que a potência l-ésima Nnl , para 1 ≤ l ≤ n − 1, tem entradas iguais
a 1 na l-sobre-diagonal e a 0 nas demais posições, ou seja:
(198) Nnl = [δi+l,j ], 1 ≤ l ≤ n − 1.
Para l ≥ n, temos que Nnl = 0; em particular, Nn é nilpotente. Podemos mostrar a
prova formal por indução.PPor construção Nn = [δi+1,j ]. Suponhamos que Nnl−1 =
[δi+l−1,j ]. Então (Nnl )ij = nh=1 δi+l−1,h δh+1,j = δi+l,j , o que prova o resultado. Em
particular:
(199) rk(Nnl ) = max{n − l, 0}.
Enfim, seja C = {e1 , . . . , en } a base canônica de Kn . Temos que:
(200) Nnl · ej = 0, j≤l Nnl · ej = ej−l , j ≥ l + 1.
De fato, Nnl · ej é a coluna j de Nnl , logo, pela fórmula (198), a única entrada não
nula dessa coluna é a de ı́ndice i tal que i + l = j, ou seja, i = j − l.
Exemplo 7.2.7. Consideremos a matriz B5 (8). Temos que:
   
8 1 0 0 0 0 1 0 0 0
0 8 1 0 0 0 0 1 0 0
   
B5 (8) = 
0 0 8 1 0 
 N5 = B5 (8) − 8I5 = 0 0
 0 1 0.
0 0 0 8 1 0 0 0 0 1
0 0 0 0 8 0 0 0 0 0
Seja l = 3. Pela fórmula (198) temos:
 
0 0 0 1 0
0 0 0 0 1
 
N53 = 
0 0 0 0 0.
0 0 0 0 0
0 0 0 0 0
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 243

É imediato verificar que vale a fórmula (199), ou seja, rk(N53 ) = 5 − 3 = 2. Enfim,


podemos verificar a fórmula (200). Os únicos produtos não triviais são:
         
0 0 0 1 0 0 1 0 0 0 1 0 0 0
0 0 0 0 1 0 0 0 0 0 0 1 0 1
         
0 0 0 0 0 0 = 0 0 0 0 0 0 0 = 0 .
         
0 0 0 0 0 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 0

O leitor pode construir facilmente vários exemplos parecidos. ♦

Enfim, observamos que, se λ 6= λ̃, então

(201) rk((Bn (λ̃) − λIn )l ) = n ∀n ∈ N,

pois as entradas da diagonal principal são iguais a (λ̃−λ)l . Isso implica que Bn (λ̃)−
λIn é nilpotente se, e somente se, λ = λ̃.

7.2.2. Endomorfismos representados por blocos de Jordan. Seja f : V →


V um endomorfismo e suponhamos que exista uma base A = {a1 , . . . , an } de V tal
que µA (f ) = Bn (λ̃). Valem os seguintes fatos:
• χf (λ) = (λ̃ − λ)n , logo λ̃ é o único autovalor e ma(λ̃) = n;
• rk(Bn (λ̃) − λ̃In ) = n − 1, portanto mg(λ̃) = 1; como f (a1 ) = λ̃a1 , temos
que Vλ̃ = ha1 i;
• isso mostra que ma(λ̃) é a máxima possı́vel e mg(λ̃) é a mı́nima; em parti-
cular, f é diagonalizável se, e somente se, n = 1.
Ademais, pela fórmulas (200) e pela definição de matriz representativa temos que,
para todo l ≤ n:

(202) (f − λ̃In )l (ai ) = 0 1 ≤ i ≤ l (f − λ̃In )l (ai ) = ai−l l + 1 ≤ i ≤ n.

Lema 7.2.8. Seja f : V → V um endomorfismo e seja A = {a1 , . . . , an } uma


base de V tal que µA (f ) = Bn (λ̃). Para 1 ≤ l ≤ n − 1 temos que:

(203) Ker((f − λ̃In )l ) = ha1 , . . . , al i Im((f − λ̃In )l ) = ha1 , . . . , an−l i.

Para l ≥ n temos que:

(204) Ker((f − λ̃In )l ) = V Im((f − λ̃In )l ) = {0}.

Demonstração. Seja 1 ≤ l ≤ n − 1. Pelas fórmulas (202) valem as inclusões


ha1 , . . . , al i ⊂ Ker((f − λ̃In )l ) e ha1 , . . . , an−l i ⊂ Im((f − λ̃In )l ). Pela fórmula (199)
temos que rk((f − λ̃In )l ) = n − l, logo ha1 , . . . , an−l i = Im((f − λ̃In )l ). Pelo teorema
do núncleo e da imagem dim(Ker((f − λ̃In )l )) = l, logo ha1 , . . . , al i = Ker((f − λ̃In )l ).
Enfim, para l ≥ n, as fórmulas (204) seguem imediatamente das (202) com l = n. 
244 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

7.2.3. Matrizes em forma canônica de Jordan.


Definição 7.2.9. Uma matriz A ∈ M (n; K) é dita em forma canônica de Jordan
se for constituı́da por blocos de Jordan em posição simétrica a respeito da diagonal
principal, ou seja, se for da seguinte forma:
Bm1 (λ1 ) 0 ··· 0
 
 0 Bm2 (λ2 ) · · · 0 
(205) J = .
.. .
.. .
..
.
 ··· 
0 0 ··· Bmk (λk )

Os autovalores λ1 , . . . , λk não são necessariamente distintos. É claro que n =
m1 + · · · + mk . Temos que:
Bm1 (λ1 − λ)l 0 ··· 0
 
l
l
 0 B m2 (λ 2 − λ) ··· 0 
(206) (J − λIn ) =  .. .. .. .
. . ··· . 
0 0 ··· Bmk (λk − λ)l
Logo, se λ 6= λi para todo i, aplicando a fórmula (201) a cada bloco obtemos que
(207) rk(J − λIn )l = n ∀l ∈ N.
Suponhamos, a menos da ordem, que λ1 = · · · = λh = λ̃ e que λh+1 , . . . , λk 6= λ̃.
Então, pelas fórmulas (199) e (201), temos:
h
X k
X
l
(208) rk(J − λ̃In ) = max{mi − l, 0} + mi .
i=1 i=h+1

Seja m̃ := max{m1 , . . . , mh }, ou seja, a ordem máxima entre os blocos associados


a λ̃. Dado que m̃ é o mı́nimo número natural l tal que max{mi − l, 0} = 0 para
todo i ∈ {1, . . . , h}, pela fórmula (199) m̃ é o mı́nimo exponente l que anula todos
os blocos associados a λ̃ na matriz rk(J − λ̃In )l , ou seja, por (208):
m̃ = min{l ∈ N : rk(J − λ̃In )l = ki=h+1 mi = n − ma(λ̃)}.
P
(209)
Se o exponente l for maior que m̃, os blocos associados a λ̃ já são nulos e os demais
mantêm o mesmo posto, portanto:
(210) rk(J − λ̃In )l = rk(J − λ̃In )m̃ = n − ma(λ̃) ∀l ≥ m̃.
Suponhamos que existam s0 blocos de ordem m̃ associados a λ̃. Obviamente 1 ≤
s0 ≤ h, sendo s0 = h se, e somente se, m1 = · · · = mh = 1. Pela fórmula (208), na
matriz (J − λ̃In )m̃−1 todos os blocos de ordem menor que m̃ se anulam e fica uma
única entrada igual a 1 nos blocos de ordem m̃. Logo:
(211) s0 = rk(J − λ̃In )m̃−1 − rk(J − λ̃In )m̃ .
Seja si o número de blocos de ordem m̃ − i associados a λ̃, para 0 ≤ i ≤ m̃ − 1. Por
indução, suponhamos de conhecer os números s0 , . . . , si−1 e calculemos si . Elevando
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 245

J − λ̃In ao exponente m̃ − i − 1, obtemos uma única entrada não nula em todos os


blocos de ordem m̃ − i. Quando elevamos ao exponente m̃ − i, estes 1 somem, mas
também nos blocos de ordem maior que m̃ − i o posto diminui de 1. Logo:
(212) si = rk(J − λ̃In )m̃−i−1 − rk(J − λ̃In )m̃−i − s0 − · · · − si−1 .

7.2.4. Endomorfismos representados em forma canônica de Jordan.


Seja f : V → V um endomorfismo e suponhamos que exista uma base
A = {a1,1 , . . . , a1,m1 , . . . , ah,1 , . . . , ah,mh ,
(213)
ah+1,1 , . . . , ah+1,mh+1 , . . . , ak,1 , . . . , ak,mk }
de V tal que µA (f ) = J, sendo J dada por (205), de modo que λ1 = · · · = λh = λ̃ e
λh+1 , . . . , λk 6= λ̃. Valem os seguintes fatos:
• χf (λ) = (λ1 − λ)m1 · · · (λk − λ)mk , sendo m1 + · · · + mk = n;
• ma(λ̃) = m1 + · · · + mh e, como rk(J − λ̃In ) = n − h pela fórmula (208),
temos mg(λ̃) = h, logo:
(214) Vλ̃ = ha1,1 , . . . , ah,1 i.
Dado que, considerando os blocos relativos a λ̃, o número de entradas iguais a 1 na
sobre-diagonal é (m1 − 1) + · · · + (mh − 1) = m1 + · · · + mh − h = ma(λ̃) − mg(λ̃),
deduzimos que o número de entradas não nulas da sobre-diagonal, acima de λ̃, coin-
cide com a diferença entre a multiplicidade algébrica e a geométrica de λ̃, portanto
as entradas não nulas da sobre-diagonal medem a obstrução à diagonalizabilidade
de f . Aplicando (202) a cada bloco temos que, para l ≤ mi :
(f − λi In )l (ai,j ) = 0, 1 ≤ j ≤ l
(215)
(f − λi In )l (ai,j ) = ai,j−l , l + 1 ≤ j ≤ mi .

Definição 7.2.10. Seja λ̃ um autovalor de um endomorfismo f : V → V . Um


vetor não nulo v ∈ V é dito autovetor generalizado de f relativo a λ̃ se existe l ∈ N
tal que (f − λ̃In )l (v) = 0. O auto-espaço generalizado de λ̃, que denotamos por Vλ̃0 ,
é a união entre o conjunto dos autovetores generalizados e {0}. ♦
Segue imediatamente da definição que:
[
(216) Vλ̃0 = Ker((f − λ̃In )l ).
l∈N

O leitor pode verificar facilmente que Vλ̃0 é um sub-espaço vetorial de V . Observamos


que:
• Vλ̃ ⊂ Vλ̃0 , dado que, na fórmula (216), para l = 1 obtemos precisamente Vλ̃
(isso segue também da definição 7.2.10, para l = 1);
• Vλ̃0 é f -invariante, ou seja, f (Vλ̃0 ) ⊂ Vλ̃0 . De fato, seja v ∈ Vλ̃0 . Então
existe l ∈ N tal que (f − λ̃In )l (v) = 0, portanto (f − λ̃In )l (f (v)) = f ((f −
λ̃In )l (v)) = f (0) = 0, logo f (v) ∈ Vλ̃0 . Obviamente, também Vλ̃ é f -
invariante.
246 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

O item 4 do seguinte lema mostra a estrutura dos auto-espaços generalizados, por en-
quanto só considerando endomorfismos representáveis por matrizes da forma (205).
Contudo, veremos que o mesmo resultado vale para qualquer endomorfismo.
Lema 7.2.11. Seja µA (f ) = J, sendo A dada por (213) e J por (205), e sejam
Ai := {ai,1 , . . . , ai,mi } e Vi := hAi i.
(1) Todo sub-espaço Vi é f -invariante.
(2) Seja λ̃ um autovalor de f e, a menos da ordem, suponhamos que λ1 = · · · =
λh = λ̃ e λh+1 , . . . , λk 6= λ̃. Para todo l ∈ N temos que
D[ E
l
(217) Ker((f − λ̃In ) ) = {ai,1 , . . . , ai,min{l,mi } }
i: i≤h
D [ [ E
(218) Im((f − λ̃In )l ) = {ai,1 , . . . , ai,mi −l }, {ai,1 , . . . , ai,mi } .
i≤h i: i≥h+1
n
i:
l<mi

(3) Seja m̃ := max{m1 , . . . , mk }. Então, para 1 ≤ l ≤ m̃, temos que


Ker((f − λ̃In )l ) ) Ker((f − λ̃In )l−1 )
Im(f − λ̃In )l ( Im(f − λ̃In )l−1
e, para todo l > m̃, temos que
Ker((f − λ̃In )l ) = Ker((f − λ̃In )l−1 )
Im((f − λ̃In )l ) = Im((f − λ̃In )l−1 ).
(4) Vλ̃0 = Ker((f − λ̃In )m̃ ) = V1 ⊕ · · · ⊕ Vh , portanto dim Vλ̃0 = ma(λ̃).

Demonstração. (1) É consequência imediata das fórmulas (215). (2) Seja K


o subespaço vetorial de V indicado no lado direito da fórmula (217). Pelas fórmulas
(215) temos que K ⊂ Ker((f − λ̃In )l ). Analogamente, seja H o subespaço vetorial
de V indicado no lado direito da fórmula (218). Pelas fórmulas (215) e pelo item
precedente temos que H ⊂ Im((f − λ̃In )l ). Temos que:
X X (208)
dim(H) = max{mi − l, 0} + mi = rk((f − λ̃In )l ),
i≤h i≤h

portanto H = Im((f − λ̃In )l ). Pelo teorema do núcleo e da imagem temos que


X
dim(Ker((f − λ̃In )l )) = n − rk((f − λ̃In )l ) = min{l, mi } = dim(K),
i≤h

portanto K = Ker((f − λ̃In )l ). (3) Segue imediatamente do item precedete, co-


erentemente com as fórmulas (210), (211) e (212). (4) Pelo item (3) temos que
Vλ̃0 = Ker((f − λ̃In )m̃ ) e pelo item (2) temos que Ker((f − λ̃In )m̃ ) = V1 ⊕· · ·⊕Vh . 
Usando a notação do lema 7.2.11, chamamos Ai , pensado como conjunto orde-
nado, de cadeia associada a λi e chamamos ai,mi de gerador da cadeia. Usamos esta
palavra pois, pelas fórmulas (215) com l = 1, a cadeia Ai se obtém a partir de ai,mi
aplicando iterativamente f − λi In , até chegar ao vetor nulo. Pelo lema 7.2.11, item
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 247

(3), a imagem de f − λ̃In é gerada pelos elementos de A que não são geradores de
uma cadeia associada a um autovalor λi igual a λ̃, ou seja:
(219) Im(f − λ̃In ) = hA \ {a1,m1 , . . . , ah,mh }i.
0
Seja A = A \ {a1,m1 , . . . , ah,mh }. Sejam m1 = · · · = mp = 1 e mp+1 , . . . , mh > 1.
Então:
A0 = {ap+1,1 , . . . , ap+1,mp+1 −1 , . . . , ah,1 , . . . , ah,mh −1 ,
(220)
ah+1,1 , . . . , ah+1,mh+1 , . . . , ak,1 , . . . , ak,mk }.
Enfim
Ker(f − λ̃In ) = Vλ̃ = ha1,1 , . . . , ah,1 i.
7.2.5. Existência e unicidade da forma canônica de Jordan. Agora po-
demos demonstrar a existência e a unicidade da forma canônica de Jordan para todo
endomorfismo trinagularizável.
Teorema 7.2.12. Seja f : V → V um endomorfismo triangularizável. Existe
uma base A de V tal que µA (f ) é uma matriz em forma canônica de Jordan. Esta
matriz é única (ou seja, não depende da base A escolhida) a menos da ordem dos
blocos.
Demonstração. Vamos demonstrar a existência por indução sobre n. Se n = 1
a tese é óbvia, pois qualquer matriz de ordem 1 é em forma canônica de Jordan.
Suponhamos que a tese valha para todo m ≤ n − 1. Sendo χf (λ) completamente
redutı́vel pelo teorema 7.2.2, existe um autovalor λ̃ de f . Consideremos o sub-espaço
I := Im(f − λ̃In ) de V . Seja m := dim I, logo m = n − mg(λ̃). Observamos que:
• como λ̃ é um autovalor, m ≤ n − 1;
• f (I) ⊂ I. De fato, seja v ∈ I. Por definição existe w ∈ V tal que
v = f (w) − λ̃w, logo f (v) = f (f (w) − λ̃w) = (f − λ̃In )(f (w)) ∈ I.
Por isso fica definida a restrição f 0 = f |I : I → I e, pela hipótese de indução, existe
uma base A0 de I tal que µA0 (f 0 ) é uma matriz em forma canônica de Jordan. Sejam
A0 = {a01,1 , . . . , a01,m01 , . . . , a0h0 ,1 , . . . , a0h0 ,m0 0 , . . . , a0k0 ,1 , . . . , a0k0 ,m0k }
  h
Bm01 (λ01 ) · · · 0
µA0 (f 0 ) =  .. ..
,
 
. ··· .
0
0 · · · Bm0k (λk )
sendo λ01 = · · · = λ0h0 = λ̃ e λ0h0 +1 , . . . , λ0k0 6= λ̃.2
Seja p := dim(Vλ̃ ) − dim(Vλ̃ ∩ I). Queremos escerver a base A0 na forma (220),
portanto usamos a seguinte notação:
ap+i,j := a0i,j λ̃p+i = λ̃0i
2Se V ∩ I = {0}, ou seja, Ker(f − λ̃I ) ∩ Im(f − λ̃I ) = {0}, podemos concluir facilmente
λ̃ n n
a demonstração do teorema, pois, escolhendo qualquer base A00 de Vλ̃ e definindo A := A00 ∪ A0 ,
obtemos uma matriz µA (f ) em forma canônica de Jordan. Esta situação se verifica quando ma(λ̃) =
mg(λ̃), ou seja, quando todos os blocos associados a λ̃ são de ordem 1.
248 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

h := p + h0 mp+i := m0i + 1, 1 ≤ i ≤ h0
k := p + k 0 mp+i := m0i , h0 + 1 ≤ i ≤ k 0 .
Desta maneira:
A0 = {ap+1,1 , . . . , ap+1,mp+1 −1 , . . . , ah,1 , . . . , ah,mh −1 ,
ah+1,1 , . . . , ah+1,mh+1 , . . . , ak,1 , . . . , ak,mk }
Bmp+1 (λl+1 ) · · · 0
 

µA0 (f 0 ) =  .. .. ,
. ··· .
0 ··· Bmk (λk )
sendo λp+1 = · · · = λh = λ̃ e λh+1 , . . . , λk 6= λ. Para todo i = p + 1, . . . , h,
como ai,mi −1 ∈ I, existe ai,mi ∈ V tal que (f − λ̃I)(ai,mi ) = ai,mi −1 . Enfim, como
{ap+1,1 , . . . , ah,1 } é uma base de Vλ̃ ∩ I por causa da fórmula (214), a completamos a
uma base de Vλ̃ acrescentando {a1,1 , . . . , ap,1 }. Obtemos a famı́lia de vetores de V :
A = {a1,1 , . . . , ap,1 , ap+1,1 , . . . , ap+1,mp+1 , . . . , ah,1 , . . . , ah,mh ,
(221)
ah+1,1 , . . . , ah+1,mh+1 , . . . , ak,1 , . . . , ak,mk }.
Verifiquemos que A é uma base de V . Antes de tudo observamos que A contém n
elementos, sendo n = dim V , portanto é suficiente mostrar que é independente. De
fato, pelo teorema do núcleo e da imagem temos que dim I = n − mg(λ̃). Como p =
dim(Vλ̃ ) − dim(Vλ̃ ∩ I) = mg(λ̃) − (h − p), temos que h = mg(λ̃), logo dim I = n − h.
Para passar de A0 a A acrescentamos os vetores a1,1 , . . . , ap,1 , ap+1,mp+1 , . . . , ah,mh ,
portanto acrescentamos h vetores em total, logo o número de elementos de A é
(n − h) + h = n.
Demonstremos que A é independente. Seja:
p mi
h X k mi
X X X X
(222) µi,1 ai,1 + µi,j ai,j + µi,j ai,j = 0.
i=1 i=p+1 j=1 i=h+1 j=1

Aplicando f − λ̃I obtemos:


X mi
h X k
X k
X mi
X
µi,j ai,j−1 + µi,1 (λi − λ̃)ai,1 + µi,j ((λi − λ̃)ai,j + ai,j−1 ) = 0.
i=p+1 j=2 i=h+1 i=h+1 j=2

Trata-se de uma combinação linear dos vetores de A0 . Sendo A0 uma base, os


coeficientes são nulos. Nas primeiras duas somas, isso implica imediatamente que
µi,j = 0 para todos i e j. Na última soma, suponhamos por absurdo que exista um
coeficiente não nulo µi,j . Fixando i, seja j o máximo ı́ndice tal que µi,j 6= 0. Então
µi,j (λi − λ̃)ai,j = 0, o que é absurdo, pois λi − λ̃ 6= 0. Isso demostra que todos os
coeficientes são nulos, portanto na soma (222), só ficam os seguintes termos:
p h
X X
µi,1 ai,1 + µi,1 ai,1 = 0.
i=1 i=p+1
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 249

Por construção, trata-se de uma combinação linear dos vetores de uma base de
Vλ̃ , logo os coeficientes são nulos. Isso mostra que A é uma famı́lia independente,
portanto é uma base de V , a respeito da qual f é representado pela matriz (205)
em forma canônica de Jordan.
Para demonstrar a unicidade, vamos verificar que, independentemente da base A,
a partir de f podemos reconstruir todos os blocos da matriz (205). Para cada auto-
valor λ̃, os blocos associados a λ̃ são determinados pela ordem máxima m̃, dada por
(209), e pelo número de blocos de cada ordem entre 1 e m̃, dados por (211) e (212).
As únicas quantidades que aparecem nestas fórmulas são os postos das potências
de J − λ̃In e a multiplicidade algébrica de λ̃. Nenhum destes valores depende da
escolha da base A, e sim somente de f . Logo, podemos escrever equivalentemente:
m̃ = min{l ∈ N : rk(f − λ̃I)l = n − ma(λ̃)}
(223) s0 = rk(f − λ̃In )m̃−1 − rk(f − λ̃In )m̃
si = rk(f − λ̃In )m̃−i−1 − rk(f − λ̃In )m̃−i − s0 − · · · − si−1 .
Isso mostra que, a menos da ordem dos blocos, a matriz J pode ser reconstruı́da a
partir de f , portanto é única. 
Corolário 7.2.13. Seja f : V → V um endomorfismo triangularizável. É
possı́vel decompor f em uma soma f = f0 + n0 , sendo f0 diagonalizável e n0 nilpo-
tente.
Demonstração. Seja A uma base de V a respeito da qual f é representado
por uma matriz J em forma canônica de Jordan. Seja J = ∆ + N , sendo ∆ a
matriz diagonal, cujas entradas são as de J, e N a matriz nilpotente, cujas entradas
na sobre-diagonal são as de J. Então ∆ e N representam, a respeito de A, os
endomorfismos f0 e n0 .  
Graças às fórmulas (223) podemos determinar a forma canônica de Jordan de
um endomorfismo dado; mostraremos em seguida que, em alguns casos, é possı́vel
determiná-la mais rapidamente, através do polinômio mı́nimo.
Exercı́cio 7.2.14. Encontre a forma canônica de Jordan dos endomorfismos
representados, a respeito da base canônica, pelas matrizes A1 e A2 do exemplo 7.1.6.
Resolução. Como A1 é diagonalizável, a forma canônica de Jordan é matriz
diagonal semelhante que encontramos no exemplo 7.1.6. A respeito de A2 , vimos
que os autovalores são −2 e 1, com multiplicidade algébrica respetivamente 3 e
1 e multiplicidade geométrica respetivamente 2 e 1. Por isso, o bloco relativo ao
autovalor 1 só pode ter ordem 1. A respeito do autovalor −2, como ma(2)−mg(2) =
1, só há uma entrada não nula na sobre-diagonal. Por isso, a unica combinação
possı́vel consiste em um bloco de ordem 1 e um bloco de ordem 2. Obtemos a
matriz:  
−2 1 0 0
 0 −2 0 0
J = .
0 0 −2 0
0 0 0 1
250 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Nesse caso não precisamos das fórmulas (223). Mesmo assim, vamos mostrar como
aplicá-las, como exemplo simples do caso geral. A respeito do autovalor 1, verifi-
camos no exemplo 7.1.6 que rk(A − I) = 3, o que implica que mg(1) = 1. Como
rk(A − I) = 3 = 4 − ma(1), temos que m̃ = 1. Como s0 = rk(A + 2I)0 − rk(A + 2I) =
4 − 3 = 1, temos 1 bloco de ordem 1. Isso é o que sempre acontece quando mg(λ̃) =
ma(λ̃), ou seja, temos ma(λ̃) blocos de ordem 1. A respeito do autovalor −2, verifica-
mos no exemplo 7.1.6 que rk(A + 2I) = 2, o que implica que mg(−2) = 2. Ademais,
podemos calcular facilmente (A + 2I)2 e obtemos rk(A + 2I)2 = 1 = 4 − ma(−2),
logo m̃ = 2. Como s0 = rk(A + 2I) − rk(A + 2I)2 = 1, temos um bloco de ordem
2. Enfim, s1 = 4 − rk(A + 2I) − s0 = 1, logo temos um bloco de ordem 1. Isso
determina J. ♦

Exercı́cio 7.2.15. Calcule a forma canônica de Jordan do endomorfismo f : R4 →


4
R , (x, y, z, w) 7→ (2x + y − z + w, 3y − z + w, x − y + 2z, x − 2y + z + w).

Resolução. O endomorfismo é representado, a respeito da base canônica, pela


matriz:
 
2 1 −1 1
0 3 −1 1
A=
1 −1 2 0 .

1 −2 1 1

Calculando o polinômio caracterı́stico, obtemos χA (λ) = (λ − 2)4 , portanto há o


único autovalor λ̃ = 2 com multiplicidade algébrica 4. Para calcular a multiplicidade
geométrica, observamos que rk(A − 2I) = 2 (pois a primeira linha é igual à segunda
e a quarta é igual à terceira menos a segunda), portanto mg(2) = 2. Como ma(2) −
mg(2) = 2, a forma canônica de Jordan terá duas entradas não nulas na sobre-
diagonal. Podemos verificar que (A − 2I)2 = 0, portanto rk((A − 2I)2 ) = 0 =
4 − ma(2), logo m̃ = 2. O número de blocos de ordem 2 é s0 = rk(A − 2I) − rk((A −
2I)2 ) = 2. Isso já esgota a dimensão da matriz, portanto só temos dois blocos de
ordem 2. Como confirmação, podemos verificar que s1 = 4 − rk(A − 2I) − s0 = 0.
Logo a forma canônica de Jordan é:

 
2 1 0 0
0 2 0 0
J =
0
.
0 2 1
0 0 0 2

Exercı́cio 7.2.16. Calcule a forma canônica de Jordan do endomorfismo f : R4 →


R4 , (x, y, z, w) 7→ (3y − 5z + w, 2y, 2z, −4x + 7y − 12z + 4w).
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 251

Resolução. O endomorfismo é representado, a respeito da base canônica, pela


matriz:  
0 3 −5 1
 0 2 0 0
A=  0 0 2 0 .

−4 7 −12 4
Calculando o polinômio caracterı́stico, obtemos χA (λ) = (λ − 2)4 , portanto há o
único autovalor λ̃ = 2 com multiplicidade algébrica 4. Para calcular a multiplicidade
geométrica, observamos que rk(A − 2I) = 2, portanto mg(2) = 2. Como ma(2) −
mg(2) = 2, a forma canônica de Jordan terá duas entradas não nulas na sobre-
diagonal. Até aqui a situação é idêntica à do exercı́cio precedente, porém vamos
agora verificar que a forma canônica de Jordan é diferente. Podemos verificar que
rk(A − 2I)2 = 1 e rk((A − 2I)3 ) = 0 = 4 − ma(2), logo m̃ = 3. O número
de blocos de ordem 3 é s0 = rk((A − 2I)2 ) − rk((A − 2I)3 ) = 1. Com isso só
sobra espaço para um bloco de ordem 1. Como confirmação, podemos verificar que
s1 = rk(A − 2I) − rk(A − 2I)2 − s0 = 0 e s2 = 4 − rk(A − 2I) − s0 − s1 = 1. Logo a
forma canônica de Jordan é:
 
2 1 0 0
0 2 1 0
J = 0 0 2 0 .

0 0 0 2

7.2.6. Determinação de uma base de Jordan. Agora temos que mostrar


como encontrar explicitamente uma base a respeito da qual um endomorfismo dado é
representado em forma canônica de Jordan. Chamamos uma base desse tipo de base
de Jordan. Para isso, para cada autovalor λ̃, podemos achar m̃ graças à fórmula
(223), portanto conhecemos a ordem dos blocos maximais. Suponhamos que os
blocos de ordem m̃ associados a λ̃ sejam Bm̃ (λ1 ), . . . , Bm̃ (λs0 ). Pelo lema 7.2.11 item
2, dada uma base de Jordan A, os geradores a1,m̃ , . . . , as0 ,m̃ são os únicos vetores da
base A que pertencem ao kernel de (f −λ̃In )m̃ mas não ao kernel de (f −λ̃In )m̃−1 , logo
definem elementos não nulos [a1,m̃ ], . . . , [as0 ,m̃ ] ∈ Ker((f − λ̃In )m̃ )/Ker((f − λ̃In )m̃−1 ).
Lema 7.2.17. A famı́lia {[a1,m̃ ], . . . , [as0 ,m̃ ]} é uma base do quociente Ker((f −
λ̃In )m̃ )/Ker((f − λ̃In )m̃−1 ).
Demonstração. Seja λ1 [a1,m̃ ] + · · · + λs0 [as0 ,m̃ ] = 0. Isso significa que λ1 a1,m̃ +
· · · + λs0 as0 ,m̃ ∈ Ker((f − λ̃In )m̃−1 ), portanto 0 = (f − λ̃In )m̃−1 (λ1 a1,m̃ + · · · +
λs0 as0 ,m̃ ) = λ1 a1,1 +· · ·+λs0 as0 ,1 . Dado que a famı́lia {a1,1 , . . . , as0 ,1 } é independente,
sendo uma sub-famı́lia da base A, deduzimos que λ1 = · · · = λs0 = 0, logo a famı́lia
{[a1,m̃ ], . . . , [as0 ,m̃ ]} é independente. Pela fórmula (211), trata-se de uma base. 
Por enquanto supusemos de conhecer a base A e deduzimos o lema 7.2.17. Su-
pondo agora de não conhecer a base de Jordan, tentamos aplicar a volta do lema
7.2.17, ou seja, procuramos uma base qualquer do denominador Ker((f − λ̃In )m̃−1 )
252 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

e a completamos a uma base do numerador Ker((f − λ̃In )m̃ ). Sejam a1,m̃ , . . . , as0 ,m̃
os vetores acrescentados. Por construção a famı́lia {[a1,m̃ ], . . . , [as0 ,m̃ ]} é uma base
do quociente Ker((f − λ̃In )m̃ )/Ker((f − λ̃In )m̃−1 ). Escolhemos estes vetores como
geradores das cadeias correspondentes e, aplicando iterativamente f − λ̃In a aq,m̃ ,
definimos:
(224) aq,m̃−j := (f − λ̃In )j (aq,m̃ ) ∀q ∈ {1, . . . , s0 }, j ∈ {0, . . . , m̃ − 1}.
Demonstraremos daqui a pouco que, dessa maneira, obtemos efetivamente uma base
para cada bloco maximal. Se só existem blocos de ordem m̃ (ou seja, se h = s0 ), já
concluı́mos. Se existem outros blocos, voltemos a supor de conhecer a base de Jordan
A. Suponhamos que, a menos da ordem, os blocos de ordem m̃ − i associados a λ̃,
sendo 1 ≤ i ≤ m̃ − 1, sejam Bm̃−i (λs0 +···+si−1 +1 ), . . . , Bm̃−i (λs0 +···+si−1 +si ). Por sim-
plicidade usamos a notação s̃i := s0 + · · · + si−1 . Pelo lema 7.2.11 item 2, dada uma
base de Jordan A, os geradores as̃i +1,m̃−i , . . . , as̃i +si ,m̃−i são vetores da base A que
pertencem ao kernel de (f − λ̃In )m̃−i mas não ao kernel de (f − λ̃In )m̃−i−1 , logo defi-
nem elementos não nulos [as̃i +1,m̃−1 ], . . . , [as̃i +si ,m̃−i ] ∈ Ker((f − λ̃In )m̃−i )/Ker((f −
λ̃In )m̃−i−1 ). Contudo, contrariamente ao caso maximal, não são os únicos elementos
de A com esta propriedade: temos que incluir também os vetores a1,m̃−i , . . . , as̃i ,m̃−i
associados a blocos de ordem superior.
Lema 7.2.18. A famı́lia {[a1,m̃−i ], . . . , [as̃i ,m̃−i ], [as̃i +1,m̃−i ], . . . , [as̃i +si ,m̃−i ]} é uma
base do quociente Ker((f − λ̃In )m̃−i )/Ker((f − λ̃In )m̃−i−1 ).
Demonstração. A demonstração é análoga à do lema 7.2.18, aplicando a
fórmula (212), por causa da qual s̃i + si é precisamente a dimensão do quociente
Ker((f − λ̃In )m̃−i )/Ker((f − λ̃In )m̃−i−1 ). 
Por enquanto supusemos de conhecer a base A e deduzimos o lema 7.2.18. Su-
pondo agora de não conhecer a base de Jordan, tentamos aplicar a volta do lema
7.2.18, ou seja, procuramos uma base qualquer do denominador Ker((f − λ̃In )m̃−i−1 ),
a unimos à famı́lia a1,m̃−i , . . . , as̃i ,m̃−i e completamos a união a uma base do nume-
rador Ker((f − λ̃In )m̃−i ). Sejam as̃i +1,m̃−i , . . . , as̃i +si ,m̃−i os vetores acrescentados.
Escolhemos estes vetores como geradores das cadeias correspondentes e, aplicando
iterativamente f − λ̃In a aq,m̃−i , definimos:
aq,m̃−i−j := (f − λ̃In )j (aq,m̃−i ) ∀q ∈ {s̃i + 1, . . . , s̃i + si },
(225)
j ∈ {0, . . . , m̃ − i − 1}.
Demonstraremos daqui a pouco que, dessa maneira, obtemos efetivamente uma base
para cada bloco de ordem m̃ − i.

Resumindo, atuamos indutivamente da seguinte maneira.


• Considerando a ordem maximal m̃, que conhecemos pela fórmula (223),
encontramos uma base do denominador Ker((f − λ̃In )m̃−1 ) e a completamos
a uma base do numerador Ker((f − λ̃In )m̃ ).
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 253

• Sejam a1,m̃ , . . . , as0 ,m̃ os vetores acrescentados. Aplicando iterativamente


f − λ̃In a aq,m̃ obtemos uma base para cada bloco maximal, definida por
(224). Se só existem blocos de ordem m̃, já concluı́mos.
• Se existem outros blocos, consideremos indutivamente os de ordem m̃ − i.
Encontramos uma base do denominador Ker((f −λ̃In )m̃−i−1 ), acrescentamos
os vetores a1,m̃−i , . . . , as̃i ,m̃−i e completamos a famı́lia obtida a uma base do
numerador Ker((f − λ̃In )m̃−i ).
• Sejam as̃i +1,m̃−i , . . . , as̃i +si ,m̃−i os vetores acrescentados. Aplicando iterati-
vamente f − λ̃In a aq,m̃−i obtemos uma base para cada bloco de ordem m̃−i,
definida por (225).
Antes de demonstrar que este procedimento é correto, vamos mostrar alguns exem-
plos.
Exercı́cio 7.2.19. Ache uma base das formas canônicas de Jordan achadas no
exemplo 7.2.14.
Resolução. Como a matriz A1 é diagonalizável, a base correspondente é a
que já achamos no exemplo 7.1.6. A respeito de A2 , o autovalor 1 só tem um
bloco de ordem 1, portanto só temos que achar um autovetor correspondente. Re-
solvendo (A2 − I)x = 0, achamos x = 0, z = 0 e w = 0, portanto um autove-
tor é (0, 1, 0, 0). A respeito do autovalor −2, já achamos que m̃ = 2, portanto
temos que achar uma base de Ker((f + 2I)2 )/Ker(f + 2I). Por isso, achamos
uma base de Ker(f + 2I) e a completamos a uma de Ker((f + 2I)2 ). Resolvendo
(A2 + 2I)x = 0, obtemos x = y = 0, portanto uma base de Ker(f + 2I) é B 0 =
{(0, 0, 1, 0), (0, 0, 0, 1)}. Resolvendo (A2 + 2I)2 x = 0 obtemos y = 0, portanto uma
base de Ker((f + 2I)2 ), que completa B 0 , é B = {(0, 0, 1, 0), (0, 0, 0, 1), (1, 0, 0, 0)}.3
Logo, uma base do quociente é {[(1, 0, 0, 0)]}, portanto (1, 0, 0, 0) é o gerador do
bloco de ordem 2. Como (A2 + 2I)(1, 0, 0, 0)T = (0, 0, −4, 4)T , a base associada ao
bloco de ordem 2 é {(0, 0, −4, 4), (1, 0, 0, 0)}. Dado que existe também um bloco
de ordem 1, precisamos de mais um vetor. Sabemos que {[(0, 0, −4, 4)]} é uma
famı́lia independente de Ker(f + 2I)/Ker((f + 2I)0 ) = Ker(f + 2I), portanto te-
mos que completá-la a uma base de Ker(f + 2I). Como este espaço é definido
por x = y = 0, podemos considerar a base {(0, 0, −4, 4), (0, 0, 1, 0)}. Por isso,
uma base associada ao bloco de ordem 1 é {(0, 0, 1, 0)}. Afinal, obtemos a base
A = {(0, 0, −4, 4), (1, 0, 0, 0), (0, 0, 1, 0), (0, 1, 0, 0)}, a respeito da qual a matriz re-
presentativa é J. Em particular, se C for a matriz cujas colunas são os vetores de
A, obtemos que J = C −1 A2 C. ♦

Exercı́cio 7.2.20. Ache uma base da forma canônica de Jordan achada no


exemplo 7.2.15.

3Em geral, para completar a base B 0 terı́amos que achar uma base qualquer de Ker((f +2I)2 ) e
aplicar o teorema da base incompleta. Em alternativa, podemos calcular o complemento ortogonal
de Ker(f + 2I) em Ker((f + 2I)2 ) e achar uma sua base. Neste exercı́cio conseguimos completar
a base B 0 imediatamente.
254 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Resolução. Temos o único autovalor 2. Como m̃ = 2, temos que achar


uma base de Ker((A − 2I)2 )/Ker(A − 2I). Como (A − 2I)2 = 0, trata-se de
uma base de R4 /Ker(A − 2I). Resolvendo (A − 2I)x = 0, obtemos x = y e
w = z − x, portanto obtemos a base {(1, 1, 0, −1), (0, 0, 1, 1)}. Aplicando o te-
orema da base incompleta com respeito à base canônica de R4 , obtemos a base
{(1, 1, 0, −1), (0, 1, 0, 0), (0, 0, 1, 1), (0, 0, 0, 1)}. Portanto, os dois geradores dos blo-
cos de ordem 2 são (0, 1, 0, 0) e (0, 0, 0, 1). Como (A−2I)(0, 1, 0, 0)T = (1, 1, −1, −2)T
e (A−2I)(0, 0, 0, 1)T = (1, 1, 0, −1)T , obtemos a base A = {(1, 1, −1, −2), (0, 1, 0, 0),
(1, 1, 0, −1), (0, 0, 0, 1)}. Se C for a matriz cujas colunas são os vetores de A, temos
que J = C −1 AC. ♦

Exercı́cio 7.2.21. Ache uma base da forma canônica de Jordan achada no


exemplo 7.2.16.
Resolução. Temos o único autovalor 2. Como m̃ = 3, temos que achar
uma base de Ker((A − 2I)3 )/Ker((A − 2I)2 ). Como (A − 2I)3 = 0, trata-se de
uma base de R4 /Ker((A − 2I)2 ). Resolvendo (A − 2I)2 x = 0, obtemos y = 2z,
portanto obtemos a base {(1, 0, 0, 0), (0, 2, 1, 0), (0, 0, 0, 1)}. Podemos completa-
la a uma base de R4 acrescentando (0, 1, 0, 0), portanto um possı́vel gerador do
bloco de ordem 3 é (0, 1, 0, 0). Como (A − 2I)(0, 1, 0, 0)T = (3, 0, 0, 7)T e (A −
2I)(3, 0, 0, 7)T = (1, 0, 0, 2)T , obtemos uma base para o bloco de ordem 3. Há
mais um bloco de ordem 1. O vetor (1, 0, 0, 2) é uma famı́lia independente de
Ker(A − 2I)/Ker((A − 2I)0 ) = Ker(A − 2I), portanto temos que completa-lo a
uma base. Resolvendo (A − 2I)x = 0 obtemos y = 2z e w = 2x − z, portanto
obtemos a base {(1, 0, 0, 2), (0, 2, 1, −1)}. O primeiro vetor coincide com o que
já tı́nhamos, portanto acrescentamos o vetor (0, 2, 1, −1). Afinal obtemos a base
A = {(1, 0, 0, 2), (3, 0, 0, 7), (0, 1, 0, 0), (0, 2, 1, −1)}. Se C for a matriz cujas colunas
são os vetores de A, temos que J = C −1 AC. ♦

Agora podemos demostrar que a técnica mostrada nesta seção leva efetivamente
a uma base de Jordan. Além disso, mostraremos alguns lemas que generalizam os
análogos relativos a endomorfismos diagonalizáveis.
Lema 7.2.22. Sejam f : V → V um endomorfismo, λ̃ um autovalor de f e v um
autovetor generalizado associado a λ̃. Se λ 6= λ̃, para todo l ∈ N o vetor (f − λI)l (v)
é um autovetor generalizado associado a λ̃ (em particular não é nulo).
Demonstração. Vamos demonstrar o resultado por indução sobre l. Seja l =
1. Por definição existe m ∈ N tal que (f − λ̃I)m (v) = 0. Seja w = (f − λI)(v). É
imediato verificar por indução sobre m que f − λI comuta com (f − λ̃I)m , portanto:
(f − λ̃I)m (w) = (f − λ̃I)m ◦ (f − λI)(v)
= (f − λI) ◦ (f − λ̃I)m (v) = (f − λI)(0) = 0,
logo w ∈ Vλ̃0 . Seja por absurdo w = 0. Então f (v) = λv, portanto (f − λ̃I)m (v) =
(λ − λ̃)m v 6= 0, o que é absurdo. Isso demonstra a tese para l = 1. Se a tese valer
7.2. TRIANGULARIZAÇÃO E FORMA CANÔNICA DE JORDAN 255

para l − 1, então v 0 := (f − λI)l−1 (v) é um autovalor generalizado associado a λ̃,


portanto, aplicando o passo l = 1 a v 0 , obtemos que (f − λI)(v 0 ) = (f − λI)l (v) é
também um autovalor generalizado associado a λ̃. 

O seguinte lema que generaliza o 3.6.20.


Lema 7.2.23. Seja f : V → V um endomorfismo. Sejam λ1 , . . . , λk autovalores
de f e v 1 , . . . , v k autovetores generalizados tais que v i ∈ Vλ0i . Se λ1 , . . . , λk forem
distintos, então {v 1 , . . . , v k } é independente.
Demonstração. Vamos demonstrar o resultado por indução. Se k = 1, é claro
que {v 1 } é independente, pois, por definição, um autovetor generalizado não pode
ser nulo. Suponhamos que o resultado valha para k − 1. Seja:
(226) µ1 v 1 + · · · + µk v k = 0.
Por definição de autovetor generalizado, exite l ∈ N tal que v k ∈ Ker((f − λk I)l ).
Aplicando (f − λk I)l a (226), obtemos µ1 w1 + · · · + µk−1 wk−1 = 0, sendo wi =
(f − λk I)l (v i ). Pelo lema 7.2.22 e a hipótese de indução os coeficientes µ1 , . . . , µk−1
são nulos, portanto (226) se torna µk v k = 0, logo µk = 0 também. 
Teorema 7.2.24. Seja f : V → V um endomorfismo triangularizável. A famı́lia
de vetores definida pelas fórmulas (224) e (225) é uma base de Jordan de V .
Demonstração. O número de vetores definidos por (224) é m̃s0 e o número
de vetores definidos por (225) é (m̃ − i)si . Continuando iterativamente obtemos o
seguinte número de vetores:
(227) m̃s0 + (m̃ − 1)s1 + · · · + sm̃−1 .
Por construção m1 = · · · = ms0 = m̃ e, em geral, ms̃i +1 = · · · = ms̃i +si = m̃ − i,
portanto o número (227) coincide com
(m1 + · · · + ms0 ) + (ms0 +1 + · · · + ms0 +s1 ) + · · · + (ms̃m̃−2 +1 + · · · + mh )
= m1 + · · · + mh ,

ou seja, com a dimensão da sub-matriz formada pelos blocos associados a λ̃. Apli-
cando o mesmo procedimento a todo autovalor λ̃, obtemos n = m1 +· · ·+mk vetores,
sendo n = dim V . Por isso, só devemos demonstrar que a famı́lia de vetores definida
pelas fórmulas (224) e (225) é independente. Seja:
h
XX
(228) (µλ̃,q,1 aq,1 + · · · + µλ̃,q,mq aq,mq ) = 0,
λ̃ q=0

sendo a primeira soma sobre os autovalores distintos de f . O número h = s0 + · · · +


sm̃−1 é o número de blocos associados a λ̃. Observamos que, para q incluso entre
s̃i + 1 e s̃i + si obtemos os vetores da famı́lia (225), sendo mq = m̃ − i (em particular,
para q incluso entre 1 e s0 , obtemos os vetores da famı́lia (224), sendo mq = m̃).
256 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Vamos demostrar que todo coeficiente µλ̃,q,j é nulo. Seja


h
X
v λ̃ := (µλ̃,q,1 aq,1 + · · · + µλ̃,q,mq aq,mq ),
q=1
P
ou seja, a soma interna de (228). Dessa maneira a soma (228) equivale a λ̃ v λ̃ = 0.
Todos os vetores das famı́lias (224) e (225) pertencem ao kernel de uma potência
de f − λ̃I, portanto v λ̃ ∈ Vλ̃0 para todo λ̃. Suponhamos por absurdo que exista
pelo menos um vetor v λ̃ 6= 0. Sejam v λ̃1 , . . . , v λ̃p os vetores não nulos. A identidade
P
λ̃ v λ̃ = 0 equivale à v λ̃1 + · · · + v λ̃p = 0, o que é absurdo pelo lema 7.2.23, pois os
coeficientes desta combinação linear são iguais a 1. Por isso
h
X
(µλ̃,q,1 aq,1 + · · · + µλ̃,q,mq aq,mq ) = 0
q=1

para todo λ̃. Seja i o mı́nimo número natural tal que existe q ∈ N tal que µλ̃,q,m̃−i 6=
0. Isso significa que
s̃X
i +si

µλ̃,q,m̃−i [aq,m̃−i ] = 0
q=1

como elemento de Ker((f − λ̃In )m̃−i )/Ker((f − λ̃In )m̃−i−1 ), sendo os coeficientes não
todos nulos. Isso é absurdo, pois a famı́lia {[a1,m̃−i ], . . . , [as̃i +si ,m̃−i ]} é uma base de
Ker((f − λ̃In )m̃−i )/Ker((f − λ̃In )m̃−i−1 ) por construção. Isso mostra que todos os
coeficientes de (228) são nulos. 
Enfim, vamos mostrar a generalização natural do lema 7.1.8.
Lema 7.2.25. Seja f : V → V um endomorfismo e sejam λ1 , . . . , λk os autovalo-
res distintos de f . O endomorfismo f é triangularizável se, e somente se, V é soma
direta dos auto-espaços generalizados de f , ou seja:
V = Vλ01 ⊕ · · · ⊕ Vλ0k .
Demonstração. (⇒) Sendo f triangularizável, existe uma base de Jordan A
da forma (213). Pelo lema 7.2.11 uma base do auto-espaço generalizado Vλ0i é for-
mada pelos elementos da base A correspondentes aos blocos associados a λi . Como
A é a união disjunta destas sub-famı́lias, temos que V = Vλ01 ⊕ · · · ⊕ Vλ0k . (⇐)
Se V for um espaço vetorial complexo, então todo f é triangularizável. Se V
for real e f não for triangularizável, então χf (λ) não é completamente redutı́vel,
portanto admite pelo menos uma raiz complexa não real λ. Considerando a com-
plexificação fC : VC → VC , é fácil verificar que VC = (VC )0λ1 ⊕ · · · ⊕ (VC )0λk , pois
a complexificação não muda a dimensão. Seja v um autovetor associado a λ e
seja v = v 1 + · · · + v k , sendo v i ∈ (VC )0λi . Temos que (f − λI)(v) = 0, portanto
(f − λI)(v 1 ) + · · · + (f − λI)(v k ) = 0, logo, sendo a soma direta, (f − λI)(v i ) = 0
para todo i. Pelo lema 7.2.22 temos que v i = 0 para todo i, o que é absurdo, pois v
é um autovetor. 
7.3. FORMA CANÔNICA DE JORDAN REAL 257

7.3. Forma canônica de Jordan real


Seja V um espaço vetorial real e consideremos um endomorfismo f : V → V .
Se f for triangularizável, então fica definida a forma canônica de Jordan correspon-
dente, que denotamos por J. Em geral, podemos complexificar f e calcular a forma
canônica de Jordan de fC : VC → VC , que denotamos por JC . Observamos que:
• se f for triangularizável, então, fixando uma base de Jordan real A e consi-
derando a mesma A como base de VC , obtemos que J = JC . Como a forma
de Jordan é única, isso vale independentemente da base escolhida.
• Se f não for trinagularizável, não pode acontecer que a matriz de Jordan
de fC seja real, mas que só represente fC a respeito de uma base complexa
não real. De fato, se a matriz for real, todo autovalor é real, portanto o
polinômio caracterı́stico é completamente redutı́vel em R. Por isso existe a
forma de Jordan real, a qual, sendo única, coincide com a complexa.
Isso implica que temos duas alternativas: ou f é triangularizável e J = JC ou a
forma canônica de Jordan de fC é uma matriz complexa não real. Contudo, mesmo
quando f não for triangularizável, é possı́vel definir uma forma canônica de Jordan
real, a qual obviamente não é triangular superior, mas o é por blocos. Queremos
deixar claro que os endomorfismos não trianuglarizáveis não são casos patológicos,
e sim podem ser bastante significativos. Por exemplo, nenhuma rotação de R2 ,
exceto ±I2 , é trianguarizável (v. exemplo 3.6.13, no qual mostramos que o polinômio
caracterı́stico não é redutı́vel em R).
7.3.1. Construção da forma de Jordan real. Seja f : V → V um endomor-
fismo real genérico e consideremos a complexificação fC : VC → VC . Como χfC (λ) é
um polinômio real, pois coincide com χf (λ), se z for uma raiz complexa não real de
χfC (λ), então z̄ o é também. Por isso, escrevemos o polinômio da seguinte forma:
χf (λ) = (λ − λ1 ) · · · (λ − λk )(λ − z1 )(λ − z̄1 ) · · · (λ − zh )(λ − z̄h ),
sendo λ1 , . . . , λk as raı́zes reais e z1 , z̄1 , . . . , zh , z̄h as complexas não reais. Isso implica
que dim V = k + 2h. Suponhamos que, na forma canônica de Jordan de fC , haja
h blocos associados ao autovalor zi . Seja Ai = {a1,1 , . . . , a1,m1 , . . . , ah,1 , . . . , ah,mh }
o trecho de uma base de Jordan de fC correspondente ao autovalor zi . Obser-
vamos que, em correspondência do autovalor z̄i , podemos escolher o trecho Āi :=
{ā1,1 , . . . , ā1,m1 , . . . , āh,1 , . . . , āh,mh }, onde usamos a notação āi,j para denotar σ0 (ai,j ),
sendo σ0 a estrutura real canônica induzida por V em VC . De fato, para todo i entre
1 e h:
f (āi,1 ) = f (σ0 (ai,1 )) = σ0 (f (ai,1 )) = σ0 (zi ai,1 ) = z̄i σ0 (ai,1 ) = z̄i āi,1
e, para todo j entre 2 e mi :
f (āi,j ) = f (σ0 (ai,j )) = σ0 (f (ai,j )) = σ0 (zi ai,j + ai,j−1 )
= z̄i σ0 (ai,j ) + σ0 (ai,j−1 ) = z̄i āi,j + āi,j−1 .
Dessa maneira vemos que os blocos de Jordan associados a z̄i são os conjugados dos
blocos associados a zi . Em particular, a ordem máxima m̃ e o número de blocos de
cada ordem s0 , . . . , sm̃−1 relativos a zi coincidem com os relativos a z̄i . Isso se pode
258 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

ver também a partir das fórmulas (223), pois, sendo σ0 um isomorfismo com o espaço
vetorial conjugado, temos que rk((f −z̄i I)l ) = rk(σ0 ◦(f −z̄i I)l ) = rk((f −zi I)l ◦σ0 ) =
rk((f − zi I)l ), ou seja, mais rapidamente, o posto de (f − zi I)l coincide com o do
seu conjugado, o qual, sendo f real, coincide com (f − z̄i I)l .
Vamos listar os autovalores λ1 , . . . , λk , z1 , z̄1 , . . . , zh , z̄h repetindo cada autovalor
conforme o número de blocos correspondentes na forma de Jordan de fC . Obtemos
a seguinte forma:
Bm01 (λ1 )
 
..

 . 


 Bmk0 (λ k ) 

 Bm1 1(z ) 
JC =  .
 
 Bm1 (z1 ) 

 . ..


 
 Bmh (zh ) 
Bmh (zh )
Consideremos uma base de Jordan correspondente da seguinte forma:
A = {a01,1 , . . . ,a01,m01 , . . . , a0k,1 , . . . , a0k,m0k , a1,1 , . . . , a1,m1 ,
(229)
ā1,1 , . . . , ā1,m1 , . . . , ah,1 , . . . , ah,mh , āh,1 , . . . , āh,mh }.
Sejam
(230) ai,j = v i,j + iwi,j āi,j = v i,j − iwi,j ,
sendo v i,j , wi,j ∈ V . A seguinte famı́lia é também uma base de VC :
B = {a01,1 , . . . ,a01,m01 , . . . , a0k,1 , . . . , a0k,m0k , v 1,1 , w1,1 ,
(231)
. . . , v 1,m1 , w1,m1 , . . . , v h,1 , wh,1 , . . . , v h,mh , wh,mh }.
Para verificar que B é uma base, é suficiente observar que v i,j = 12 (ai,j + āi,j ) e
wi,j = 2i1 (ai,j − āi,j ), portanto o sub-espaço gerado por B coincide com o gerado por
A, ou seja, VC todo. Como A e B contêm o mesmo número de elementos, também
B é uma base. Vamos calcular a matriz representativa µB (fC ). Seja zi = xi + iyi .
Temos que, para todo i entre 1 e h:
fC (v i,1 ) = 21 fC (ai,1 ) + fC (āi,1 ) = 12 (zi,1 ai,1 + z̄i,1 āi,1 )


= <(zi,1 ai,1 ) = xi,1 v i,1 − yi,1 wi,1


fC (wi,1 ) = 2i1 fC (ai,1 ) − fC (āi,1 ) = 2i1 (zi,1 ai,1 − z̄i,1 āi,1 )


= =(zi,1 ai,1 ) = yi,1 v i,1 + xi,1 wi,1


e, para todo j entre 2 e mi :
1
fC (ai,j ) + fC (āi,j ) = 12 (zi,j ai,j + ai,j−1 + z̄i,j āi,j + āi,j−1 )

fC (v i,j ) = 2
= <(zi,j ai,j + ai,j−1 ) = xi,j v i,j − yi,1 wi,j + v i,j−1
fC (wi,j ) = 2i1 fC (ai,j ) − fC (āi,j ) = 2i1 (zi,j ai,j + ai,j−1 − z̄i,j āi,j − ai,j−1 )


= =(zi,j ai,j + ai,j−1 ) = yi,1 v i,1 + xi,1 wi,1 + wi,j−1 .


7.3. FORMA CANÔNICA DE JORDAN REAL 259

Por isso, a respeito do trecho {v i,1 , wi,1 , . . . , v i,mi , wi,mi }, a matriz representativa de
fC é a seguinte:
 
x y 1 0
−y x 0 1 
.. ..
 

 . . 

(Bmi (z̄i ))R = 
 x y .
1 0 

 −y x 0 1 

 x y 
−y x
Trata-se da realificação do bloco de Jordan associado a z̄i . Por isso a matriz repre-
sentativa de fC a respeito da base B é a seguinte:
 
Bm01 (λ1 )
 ... 
 
Bm0k (λk )
 
(232) J = .
 
 (Bm1 (z̄1 ))R 

 . ..


(Bmh (z̄h ))R
O fato que aparecam blocos da forma (Bmi (z̄i ))R singifica que, no sub-espaço corres-
pondente, fC é a realificação de um endomorfismo complexo. Daqui a pouco vamos
entender qual.
Definição 7.3.1. Uma matriz J ∈ M (n; R) é dita em forma canônica de Jordan
real se for constituı́da por blocos de Jordan reais e por realificações de blocos de
Jordan complexos em posição simétrica a respeito da diagonal principal, ou seja, se
for da forma (232). ♦
Acabamos de verificar que todo endomorfismo real pode ser representado em
forma canônica de Jordan real. Vimos também como encontrar concretamente uma
forma de Jordan e uma base de Jordan reais:
• para achar a forma de Jordan real, calculamos a forma de Jordan complexa
e realificamos os blocos associados aos autovalores complexos não reais;
• para achar uma base de Jordan real, calculamos uma base de Jordan com-
plexa da forma (229) e, através das identidades (230), obtemos a base (231).
Este procedimento pode ser invertido facilmente, portanto a forma de Jordan real e a
forma de Jordan complexa podem ser deduzidas uma a partir da outra. Isso implica
que, como a complexa é única, a real o é também, exceto pelo seguinte fato. Quando
listamos os autovalores complexos, os chamamos de z1 , z̄1 , . . . , zh , z̄h . Claramente
podı́amos chamar de zi o que chamamos de z̄i e vice-versa. Com esta mudança,
no bloco de Jordan correspondente o número real y, ou seja, =(zi ), muda de sinal.
Afinal, a forma de Jordan real é única a menos da ordem dos blocos e do sinal da
componente y de cada bloco de Jordan realificado. Claramente, quando fixamos o
sinal de y em cada bloco, a base de Jordan tem que ser escolhida coerentemente.
Poderı́amos impor y > 0 em cada bloco por convenção; desta maneira a ambiguidade
260 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

sumiria, mas preferimos deixar as duas possibilidades y > 0 ou y < 0. Enfim,


observarmos o seguinte. Por definição impusemos que os blocos complexos, que são
realificados em J, sejam não reais; isso equivale ao fato que y 6= 0 em cada bloco. Se
admitı́ssemos a realificação de blocos reais, não obterı́amos nada de novo. De fato,
consideremos a seguinte realificação:
 
λ̃ 0 1 0 · · · 0 0
   0 λ̃ 0 1 · · · 0 0 
λ̃ 1 · · · 0 
 0 0 λ̃ 0 · · · 0 0 

 0 λ̃ · · · 0   
 0 0 0 λ̃ · · · 0 0 
Bn (λ̃) =  . . ⇒ (B ( λ̃)) = .
 
.. ..  n
 .. ..
R 
. . . . . . . . .
 .. .. .. .. .. .. .. 

0 0 · · · λ̃ 
 0 0 0 0 · · · λ̃ 0 

0 0 0 0 · · · 0 λ̃
Seja A = {a1 , . . . , a2n } uma base de Jordan real (ordenada) correspondente a
(Bn (λ̃))R . O leitor pode verificar que, a respeito da base A0 = {a1 , a3 , . . . , a2n−1 ,
a2 , a4 , . . . , a2n } a matriz representativa é formada por dois blocos de Jordan de or-
dem n, ou seja, é da forma  
Bn (λ̃) 0
.
0 Bn (λ̃)
Por isso, um bloco real realificado equivale a dois blocos reais iguais.
Exercı́cio 7.3.2. Calcule a forma canônica de Jordan real da seguinte matriz:
 
1 0 0 −1
0 3 −1 0 
A= 0
.
1 1 0
1 0 0 1
Encontre uma base de Jordan real correspondente.
Resolução. O polinômio caracterı́stico é χA (λ) = (λ − 2)2 (λ2 − 2λ + 2),
portanto A não é trinagularizável. Vamos calcular a forma de Jordan complexa.
Como rk(A − 2I) = 3, temos que mg(2) = 1. As duas raı́zes complexas de χA (λ)
são 1 − i e 1 + i, ambas de multiplicidade algébrica 1, portanto a forma de Jordan
complexa é a seguinte:  
2 1 0 0
0 2 0 0 
JC = 
0 0 1 − i
.
0 
0 0 0 1+i
A forma de Jordan real é formada pelo bloco real de ordem 2 associado ao autovalor
2 e pela realificação do bloco complexo de ordem 1 associado ao autovalor 1 + i:
 
2 1 0 0
0 2 0 0 
J = 0 0 1 −1 .

0 0 1 1
7.3. FORMA CANÔNICA DE JORDAN REAL 261

Para achar uma base de Jordan complexa, comecemos pelo gerador do bloco de
ordem 2. Temos que completar uma base de Ker(A − 2I) a uma base de Ker((A −
2I)2 ). O leitor pode verificar que Ker(A − 2I) = h(0, 1, 1, 0)i e Ker((A − 2I)2 ) =
h(0, 1, 0, 0), (0, 0, 1, 0)i, portanto podemos completar {(0, 1, 1, 0)} à base {(0, 1, 1, 0),
(0, 1, 0, 0)}. Por isso escolhemos (0, 1, 0, 0) como gerador do bloco de ordem 2. O ou-
tro vetor relativo ao mesmo bloco será (A−2I)·(0, 1, 0, 0)T = (0, 1, 1, 0)T , portanto o
trecho da base, relativo ao autovalor 2, é {(0, 1, 1, 0), (0, 1, 0, 0)}. Agora procuramos
um autovetor associado a 1 − i. Resolvendo (A − (1 − i)I)v = 0 obtemos o autovetor
(1, 0, 0, i). Enfim, em relação ao autovalor 1 + i, só temos que conjugar o autovetor
precedente, obtendo (1, 0, 0, −i). Afinal obtemos a base de Jordan complexa:
A = {(0, 1, 1, 0), (0, 1, 0, 0), (1, 0, 0, i), (1, 0, 0, −i)}.
Para achar a base real correspondente só devemos substituir os dois vetores comple-
xos pela parte real e a parte imaginaria do autovetor associado a 1 − i, logo:
B = {(0, 1, 1, 0), (0, 1, 0, 0), (1, 0, 0, 0), (0, 0, 0, 1)}.
O leitor pode verificar que µB (v 7→ Av) = J. Equivalentemente, se C for a matriz
cujas colunas são os vetores de B, temos que J = C −1 AC. ♦

Exercı́cio 7.3.3. Calcule a forma canônica de Jordan real da seguinte matriz:


 
0 1 −1 0
0 0 0 −1
A= 1
.
0 0 1
0 1 0 0
Encontre uma base de Jordan real correspondente.
Resolução. O polinômio caracterı́stico é χA (λ) = (λ2 + 1)2 , portanto A não é
trinagularizável. Vamos calcular a forma de Jordan complexa. Os autovalores de A
são i e −i, cada um com multiplicidade algébrica 2. Como rk(A + iI) = 3, temos
que mg(−i) = 1, portanto a forma de Jordan complexa é a seguinte:
 
−i 1 0 0
 0 −i 0 0
JC =  0 0 i 1 .

0 0 0 i
A forma de Jordan real é formada pela realificação do bloco de ordem 2 associado
a i:  
0 −1 1 0
1 0 0 1 
J =0 0 0 −1 .

0 0 1 0
Para achar uma base de Jordan complexa, procuramos o gerador do bloco associado
a −i. Temos que completar uma base de Ker(A + iI) a uma base de Ker((A +
iI)2 ). O leitor pode verificar que Ker(A + iI) = h(−i, 0, 1, 0)i e Ker((A + iI)2 ) =
h(−i, 0, 1, 0), (0, −i, 0, 1)i, portanto escolhemos (0, −i, 0, 1) como gerador do bloco
262 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

de ordem 2. O outro vetor relativo ao mesmo bloco será (A + iI) · (0, −i, 0, 1)T =
(−i, 0, 1, 0)T , portanto obtemos a base de Jordan complexa:
A = {(−i, 0, 1, 0), (0, −i, 0, 1), (i, 0, 1, 0), (0, i, 0, 1)}.
A base real correspondente é formada pela parte real e pela parte imaginária dos
dois vetores associados a −i, logo:
B = {(0, 0, 1, 0), (−1, 0, 0, 0), (0, 0, 0, 1), (0, −1, 0, 0)}.
O leitor pode verificar que µB (v 7→ Av) = J. Equivalentemente, se C for a matriz
cujas colunas são os vetores de B, temos que J = C −1 AC. ♦

7.3.2. Blocos de Jordan realificados e C-linearidade.


7.3.3. Autoespaços generalizados de endomorfismos genéricos. Agora
podemos completar algumas observações em relação aos autoespaços generalizados,
sem pressupor que o endomorfismo seja Triangularizável.

7.4. Polinômio mı́nimo e teorema de Cayley-Hamilton


Esta seção requer alguns conhecimentos de álgebra. Em particular, é necessária
uma certa familiaridade com as noções básicas relativas à teoria dos anéis e dos
anéis de polinômios. O leitor que não tenha estes conhecimentos pode passar à
seção sucessiva. Lembramos que denotamos por R[x] e C[x] os anéis de polinômios
em uma variável com coeficientes respetivamente reais e complexos.
7.4.1. Anéis de polinômios e polinômio mı́nimo. Seja A um anel, não
necessariamente comutativo. Dado um polinômio p ∈ A[x], fica bem definida a
função polinomial p : A → A, definida da seguinte maneira: se p(x) = an xn + · · · +
a1 x + a0 , definimos p(r) := an rn + · · · + a1 r + a0 . Claramente p + q = p + q. Quando
A for comutativo, também pq = p · q, porém, em geral, isso não vale. De fato, se
p(x) = an xn + · · · + a1 x + a0 e q(x) = bm xm + · · · + b1 x + b0 , o produto é dado
por (pq)(x) = cnm xnm + · · · + c1 x + c0 , sendo ci = ij=0 ai−j bj . Portanto, temos
P

que pq(r) = cnm rnm + · · · + c1 r + c0 , mas p(a)q(r) = dnm + · · · + d1 + d0 , sendo


di = ij=0 ai−j ri−j bj rj . Por isso, se os coeficientes bi comutarem com r, então vale a
P

igualdade pq(r) = p(r)q(r), mas em geral não vale. É claro que, se os coeficientes de
q(x) pertencerem ao centro de A, então comutam com todo r, portanto pq = p·q. Por
isso é natural considerar polinômios com coeficientes no centro de A, que denotamos
por C. Um polinômio p ∈ C[x] define a função polinomial p : C → C, mas, por
causa do mergulho natural C[x] ⊂ A[x], induzido pelo mergulho C ⊂ A, também
define a função polinomial p : A → A. Acabamos de verificar que, se p, q ∈ C[x] e
p, q : A → A forem as funções polinomiais correspondentes, então p + q = p + q e
pq = p · q. O mesmo vale para p, q ∈ B[x], sendo B ⊂ C qualquer subanel do centro
de A.4
4O que acabamos de mostrar pode ser expresso da seguinte maneira. Seja F(A) o conjunto das
funções de A a A. Tornamos F(A) um anel com a soma e o produto definidos por (f + g)(a) :=
f (a) + g(a) e (f g)(a) := f (a)g(a) (portanto o produto não é a composição). Seja η : A[x] → F(A),
7.4. POLINÔMIO MÍNIMO E TEOREMA DE CAYLEY-HAMILTON 263

Fixemos um sub-anel B do centro de A. Seja a ∈ A. Pode acontecer que a seja


raiz de um polinômio não nulo p ∈ B[x], ou seja, p(a) = 0 e p 6= 0. Nesse caso a é dito
algébrico a respeito de B, em caso contrário é dito transcendente. Seja Ia ⊂ B[x] o
sub-conjunto formado pelos polinômios p ∈ B[x] tais que p(a) = 0. O sub-conjunto
Ia é um ideal: de fato, se p(a) = 0 e q ∈ B[x], temos que pq(a) = p(a)q(a) = 0q(a) =
0, portanto pq ∈ Ia . Se B for um corpo, então Ia é principal, portanto é gerado
por um polinômio m(x) ∈ Ia , cujo grau é o mı́nimo entre os elementos não nulos de
I. Pedindo que m(x) seja mônico (ou seja, que o coeficiente diretor seja 1), m(x) é
único e é chamado de polinômio mı́nimo de a. Se A não contiver divisores do zero,
então m(x) é irredutı́vel, pois, se m(x) = p(x)q(x), necessariamente p(a) = 0 ou
q(a) = 0, portanto, sendo o grau de m o mı́nimo em Ia , um dos dois fatores tem
o mesmo grau de m e o outro é uma constante invertı́vel. Isso não vale quando A
contém divisores do zero, como no caso que vamos tratar agora.
Enfim, sejam B ⊂ A e B 0 ⊂ A0 subanéis do centro e seja ϕ : A → A0 um
isomorfismo de anéis tal que ϕ(B) = B 0 . A restrição ϕ|B : B → B 0 induz um
isomorfismo ϕ0 : B[x] → B 0 [x], definido por ϕ0 (an xn + · · · + a1 x + a0 ) := ϕ(an )xn +
· · · + ϕ(a1 )x + ϕ(a0 ). Para todo p ∈ B[x], temos que:
(233) ϕ ◦ p = ϕ0 (p) ◦ ϕ.
De fato, para todos a ∈ A e p(x) = an xn + · · · + a1 x + a0 ∈ B[x], temos ϕ(p(r)) =
ϕ(an rn + · · · + a1 r + a0 ) = ϕ(an )ϕ(r)n + · · · + ϕ(a1 )ϕ(r) + ϕ(a0 ) = ϕ0 (p)(ϕ(a)). A
fórmula (233) implica que p(r) = 0 se, e somente se, ϕ0 (p)(ϕ(r)) = 0. Isso significa
que p ∈ Ir se, e somente se, ϕ0 (p) ∈ Iϕ(r) , portanto, se r ∈ A for algébrico, temos
que Iϕ(r) = ϕ0 (Ir ). Se B = B 0 e ϕ|B = id, a fórmula (233) se torna:
(234) ϕ◦p=p◦ϕ
onde p à esquerda é uma função no anel A, enquanto p à direita é uma função no anel
A0 . A fórmula (233) implica que p(r) = 0 se, e somente se, p(ϕ(r)) = 0, portanto,
se r ∈ A for algébrico, temos que Iϕ(r) = Ir .
7.4.2. Polinômio mı́nimo de um endomorfismo. Seja V um espaço vetorial
e consideremos o anel End(V ), cujo produto é a composição. Vamos aplicar as noções
introduzidas na seção precedente ao anel A = End(V ).
Lema 7.4.1. O centro de End(V ), que denotamos por Z(End(V )), é formado
pelos múltiplos da identidade, portanto é isomorfo a K.
Demonstração. Sejam f ∈ Z(End(V )) e v ∈ V um vetor não nulo. Existe
um endomorfismo g : V → V tal que o auto-espaço de 1 é a reta gerada por v.
De fato, é suficiente completar v a uma base A = {v, a2 , . . . , an } de V e definir
g(v) := v e g(ai ) := −ai . Como f comuta com g, temos que f (g(v)) = g(f (v)),
ou seja, f (v) = g(f (v)), portanto f (v) é um autovetor de g associado a 1, logo
f (v) = λv. Isso mostra que f manda todo vetor v ∈ V em um seu múltiplo λv.
Só falta provar que λ não depende de v. Seja {v, w} um par independente. Sejam
p 7→ p. Em geral η não respeita o produto, mas, considerando um sub-anel B do centro de A, a
função η : B[x] → F(A) é um homomorfismo de anéis.
264 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

f (v) = λv e f (w) = µw. Temos que f (v + w) = λv + µw e, por outro lado, existe


ξ ∈ K tal que f (v + w) = ξ(v + w). Igualando as duas expressões obtemos que
(λ − ξ)v + (µ − ξ)w = 0, logo λ = µ = ξ. 
Corolário 7.4.2. O centro de M (n; K), que denotamos por Z(M (n; K)), é
formado pelos múltiplos da matriz identidade, portanto é isomorfo a K.
Fixada uma base A de V , obtemos o isomorfismo de anéis µA : End(V ) →
M (n; K), cuja restrição entre os centros induz o endomorfismo µ0A : Z(End(V ))[x] →
Z(M (n; K))[x], portanto a fórmula (233) se torna:
(235) µA ◦ p = µ0A (p) ◦ µA .
Como já observamos, isso implica que:
(236) IµA f = µ0A (If )
Para simplificar a notação, graças ao lema 7.4.1 podemos identificar Z(End(V ))
e Z(M (n; K)) com K, subentendendo os isomorfismos naturais correspondentes.
Por isso assumimos que K ⊂ End(V ) e K ⊂ M (n; K). Dessa maneira, dados um
endomorfismo f : V → V e um polinômio p(x) ∈ K[x], p(x) = ak xk + · · · + a1 x + a0 ,
temos que p(f ) = ak f k + · · · + a1 f + a0 I, sendo a potência f i a composição de f
com si mesmo i vezes. Analogamente, dada uma matriz A ∈ M (n; K), temos que
p(A) = ak Ak + · · · + a1 A + a0 In . Agora podemos aplicar a fórmula (234) ao invés
da (233); dessa maneira as fórmulas (235) e (236) se tornam
(237) µA ◦ p = p ◦ µA If = IµA f
qualquer seja a base A fixada, sendo If , IµA f ⊂ K[x].
Lembramos que uma matriz A ∈ M (n; K) é algébrica a respeito de K, pensado
como o centro de M (n; K), se for raiz de um polinômio não nulo p ∈ K[x], trans-
cendente em caso contrário. O seguinte lema mostra que toda matriz (quadrada) é
algébrica sobre K. Logo, o mesmo vale para todo endomorfismo.
Lema 7.4.3. Seja A ∈ M (n; K). Existe um polinômio não nulo p ∈ K[x], de
grau menor ou igual a n2 , tal que p(A) = 0. O mesmo vale para todo f ∈ End(V ),
sendo V um espaço vetorial de dimensão finita.
2
Demonstração. Consideremos as potências A0 , A1 , . . . , An . Trata-se de n2 +1
elementos em M (n; K), sendo dim M (n; K) = n2 , logo formam uma famı́lia depen-
2
dente. Isso significa que existem a0 , . . . , an2 ∈ K, não todos nulos, tais que an2 An +
2
· · · + a1 A + a0 I = 0, portanto A é raiz do polinômio p(x) = an2 xn + · · · + a1 x + a0 ,
de grau menor ou igual a n2 . Pela segunda fórmula de (237), também todo endo-
morfismo é algébrico a respeito de K. 
Pelo lema 7.4.3, dado um endomorfismo f ou uma matriz A, fica bem definido
o polinômio mı́nimo correspondente, o qual, dado que End(V ) e M (n; K) contêm
divisores do zero, pode ser redutı́vel. Vamos ver como calculá-lo.
Lema 7.4.4. Se A, B ∈ M (n; K) forem semelhantes, então IA = IB . Em parti-
cular, duas matrizes semelhantes têm o mesmo polinômio mı́nimo.
7.4. POLINÔMIO MÍNIMO E TEOREMA DE CAYLEY-HAMILTON 265

Demonstração. O enunciado é consequência da segunda fórmula de (237),


pois, como duas matrizes semelhantes podem representar o mesmo endomorfismo
f a respeito de duas bases diferentes, temos que IA = IB = If . Podemos também
demonstrar o enunciado só usando a álgebra das matrizes. De fato, seja p(x) =
an xn + · · · + a1 x + a0 ∈ K[x] e suponhamos que B = C −1 AC. É fácil provar que
B k = C −1 Ak C para todo k ∈ N, portanto p(B) = an C −1 An C + · · · + a1 C −1 AC +
a0 C −1 C = C −1 p(A)C, logo p(B) = 0 se, e somente se, p(A) = 0. 

Graças ao lema precedente, para calcular o polinômio mı́nimo de um endomor-


fismo ou de uma matriz triangularizável é suficiente calcular o da forma canônica
de Jordan correspondente. Se K = C, isso vale para todo endomorfismo e para toda
matriz.

Teorema 7.4.5. Dado um endomorfismo triangularizável f , sejam λ1 , . . . , λk


os autovalores distintos de f e, para todo i entre 1 e k, seja m̃i o máximo entre as
ordens dos blocos associados a λi na forma canônica de Jordan correspondente. O
polinômio mı́nimo de f é:

(238) mf (x) = (x − λ1 )m̃1 · · · (x − λk )m̃k .

Demonstração. Mostremos antes de tudo que mf (f ) = 0. Como V é soma


direta dos auto-espaços generalizados de f , é suficiente mostrar que, fixado v ∈ Vλ0i ,
temos que mf (f )(v) = 0. Pelo lema 7.2.11, item 4, (x − λi )m̃i (v) = 0, portanto,
sendo (x − λi )m̃i um fator de p(x), obtemos a tese.
Agora temos que provar que mf (x) gera If . Seja p(x) = (x−ξ1 )m1 · · · (x−ξn )mn ∈
If , sendo ξ1 , . . . , ξn ∈ K as raı́zes distintas de p. Seja J a forma canônica de Jordan.
Já sabemos que, na matriz (J − ξi I)mi , os blocos relativos a autovalores diferentes
de ξi mantêm o mesmo posto que tinham em J, enquanto, se houver um autovalor
λi igual a ξi , o posto diminui de mi até anular-se para mi = m̃i . Por isso, se
existir um autovalor de f que não é raiz de p, os blocos correspondentes não podem
anular-se aplicando p. Isso implica que todo autovalor de f é raı́zes de p. Sejam
ξ1 , . . . , ξs os autovalores de f . Para que todos os blocos se anulem, mi ≥ m̃i para
todo i ∈ {1, . . . , s}, logo mf (x) divide p(x). 

Corolário 7.4.6. Seja f : V → V um endomorfismo real (mesmo não trinagu-


larizável) e sejam λ1 , . . . , λk os autovalores distintos da complexificação fC : VC →
VC . O polinômio mı́nimo (238) de fC é real, portanto é também o polinômio mı́nimo
de f .

Demonstração. Observamos que, dado um polinômio real p, temos que p(fC ) =


(p(f ))C , portanto p é o polinômio mı́nimo de f se, e somente se, é o polinômio mı́nimo
de fC . Como o polinômio caracterı́stico de f é real, para todo autovalor não real
também o conjugado é um autovalor. Vimos na seção precedente que as ordens
máximas correspondentes na forma de Jordan complexa coincidem, portanto para
cada fator (x − λi )m̃i de (238), com λi ∈ C \ R, temos também o fator (x − λ̄i )m̃i ,
logo o polinômio (238) é real. 
266 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Corolário 7.4.7 (Teorema de Cayley-Hamilton). Todo endomorfismo é raiz do


próprio polinômio caracterı́stico, ou seja, χf (f ) = 0 para todo f ∈ End(V ). Analo-
gamente, toda matriz é raiz do próprio polinômio caracterı́stico, ou seja, χA (A) = 0
para toda A ∈ M (n; K).
Demonstração. Como m̃i ≤ ma(λi ) para todo i, m(x) divide χf (x), logo
χf ∈ If . 
Agora podemos usar o polinômio mı́nimo para calcular a forma canônica de
Jordan em alguns casos.
Exercı́cio 7.4.8. Calcule a forma canônica de Jordan do endomorfismo do
exemplo 7.2.15, ou seja, f : R4 → R4 definido por f (x, y, z, w) = (2x + y − z +
w, 3y − z + w, x − y + 2z, x − 2y + z + w).
Resolução. O endomorfismo é representado, a respeito da base canônica, pela
matriz:  
2 1 −1 1
0 3 −1 1
A= 1 −1 2 0 .

1 −2 1 1
Calculando o polinômio caracterı́stico, obtemos χA (λ) = (λ − 2)4 , portanto há o
único autovalor λ̃ = 2 com multiplicidade algébrica 4. Para calcular a multiplicidade
geométrica, verificamos que rk(A − 2I) = 2 (pois a primeira linha é igual à segunda
e a quarta é igual à terceira menos a segunda), portanto mg(2) = 2. Como ma(2) −
mg(2) = 2, a forma canônica de Jordan terá duas entradas não nulas na sobre-
diagonal. Por isso, as duas formas possı́veis são:
   
2 1 0 0 2 1 0 0
0 2 0 0 0 2 1 0
J1 = 0 0 2 1
 J2 = 0 0 2 0

0 0 0 2 0 0 0 2
O polinômio mı́nimo de J1 é m1 (x) = (x − 2)2 , enquanto o de J2 é m2 (x) = (x − 2)3 .
Em particular, o polinômio mı́nimo de A é um dos dois. Podemos verificar que
(A − 2I)2 = 0, portanto o polinômio mı́nimo não pode ter grau 3. Isso mostra que
a forma canônica de Jordan de A é J1 . ♦

Exercı́cio 7.4.9. Calcular a forma canônica de Jordan do endomorfismo do


exemplo 7.2.16, f : R4 → R4 definido por f (x, y, z, w) = (3y − 5z + w, 2y, 2z, −4x +
7y − 12z + 4w).
Resolução. O endomorfismo é representado, a respeito da base canônica, pela
matriz:  
0 3 −5 1
 0 2 0 0
A=  0 0 2 0 .

−4 7 −12 4
7.5. SUB-ESPAÇOS INVARIANTES 267

Calculando o polinômio caracterı́stico, obtemos χA (λ) = (λ − 2)4 , portanto há o


único autovalor λ̃ = 2 com multiplicidade algébrica 4. Para calcular a multipli-
cidade geométrica, verificamos que rk(A − 2I) = 2, portanto mg(2) = 2. Como
ma(2) − mg(2) = 2, a forma canônica de Jordan terá duas entradas não nulas na
sobre-diagonal. Por isso, temos as mesmas duas possibilidades J1 e J2 do exercı́cio
precedente. Podemos verificar que (A − 2I)2 6= 0, portanto o polinômio mı́nimo de
A não é m1 (x). Isso mostra que a forma canônica de Jordan de A é J2 . ♦

É possı́vel caracterizar os endomorfismos diagonalizáveis através do polinômio


mı́nimo. Isso será útil em seguida. Observamos que, pela fórmula (238), as raı́zes
do polinômio mı́nimo coincidem com as do polinômio caracterı́stico. No caso de um
endomorfismo real isso implica que o polinômio mı́nimo é completamente redutı́vel
se, e somente se, o polinômio caracterı́stico o é.
Lema 7.4.10. Um endomorfismo f : V → V é diagonalizável se, e somente se, o
seu polinômio mı́nimo é completamente redutı́vel e não possui raı́zes múltiplas.
Demonstração. O endomorfismo f é triangularizável se, e somente se, mf é
completamente redutı́vel. Pela fórmula (238) o grau de cada raiz de mf é a ordem
máxima entre os blocos de Jordan correspondentes. Dado que f é diagonalizável se,
e somente se, cada bloco de Jordam é de ordem 1, obtemos a tese. 
Observação 7.4.11. Já sabı́amos que, se o polinômio caracterı́stico for comple-
tamente redutı́vel e não possuir raı́zes múltiplas, então f é diagonalizável, pois todo
autovalor tem multiplicidade algébrica 1, logo também multiplicidade geométrica 1.
No caso do polinômio mı́nimo vale também a volta. ♦
7.4.3. Polinômios e autovalores. Sejam f : V → V um endomorfismo e p ∈
C[x] um polinômio. Se λ̃ ∈ C for um autovalor de f (ou de fC ) e v ∈ V (ou v ∈ VC )
for um autovetor associado a λ̃, então
(p(f ))(v) = p(λ̃) · v.
m
De fato, se p(x) = am x + · · · + a1 x + a0 , então
(p(f ))(v) = am f m (v) + · · · + a1 f (v) + a0 v
= am λ̃m v + · · · + a1 λ̃v + a0 v = p(λ̃) · v.
Isso implica que, se f for uma raiz de p, então todo autovalor complexo de f é uma
raiz de p. Isso segue também do fato que, se p(f ) = 0, então o polinômio mı́nimo de
f divide p em C[x], portanto todo autovalor de f , sendo uma raiz de mf , é também
uma raiz de p.

7.5. Sub-espaços invariantes


Vamos estudar a estrutura dos sub-espaços invariantes de um endomorfismo,
conforme a seguinte definição.
Definição 7.5.1. Seja f : V → V um endomorfismo. Um sub-espaço vetorial
W ⊂ V é dito f -invariante se f (W ) ⊂ W . ♦
268 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

É claro que W é f -invariante se, e somente se, fica bem definida a restrição
f |W : W → W . Graças à forma canônica de Jordan poderemos encontrar uma
caracterização explı́cita dos sub-espaços invariantes. Antes disso vamos enunciar
alguns resultados preliminares.
Lema 7.5.2. Sejam f : V → V um endomorfismo e W ⊂ V um sub-espaço f -
invariante. Seja f 0 := f |W : W → W . O polinômio caracterı́stico de f 0 divide o de
f e o polinômio mı́nimo de f 0 divide o de f .
Demonstração. Em relação ao polinômio caracterı́stico, seja B = {w1 , . . . , wm }
uma base de W e vamos completá-la a uma base A = {w1 , . . . , wm , v m+1 , . . . , v n }
de V . Como f (W ) ⊂ W , a matriz representativa µA (f ) tem a seguinte forma:
µB (f 0 ) A
 
µA (f ) = .
0 B
Isso implica que χf (λ) = χf 0 (λ) · χB (λ), logo χf 0 divide χf .
Em relação ao polinômio mı́nimo, por definição mf (f ) = 0, ou seja, (mf (f ))(v) =
0 para todo v ∈ V . Isso vale em particular para todo v ∈ W , portanto mf (f 0 ) = 0.
Acabamos de demonstrar que mf ∈ If 0 , sendo If 0 gerado por mf 0 , logo mf 0 divide
mf . 
Corolário 7.5.3. Seja f : V → V um endomorfismo triangularizável e seja
W ⊂ V um sub-espaço f -invariante. A restrição f 0 := f |W : W → W é também
triangularizável.
Demonstração. O polinômio caracterı́stico χf é completamente redutı́vel. Pelo
lema 7.5.2 o polinômio caracterı́stico χf 0 divide χf , logo é também completamente
redutı́vel. 
Corolário 7.5.4. Seja f : V → V um endomorfismo diagonalizável e seja
W ⊂ V um sub-espaço f -invariante. A restrição f 0 := f |W : W → W é também
diagonalizável.
Demonstração. Pelo lema 7.4.10 o polinômio mı́nimo mf é completamente
redutı́vel e não possui raı́zes múltiplas. Pelo lema 7.5.2 o polinômio mı́nimo mf 0 di-
vide mf , logo é também completamente redutı́vel e sem raı́zes múltiplas. Aplicando
novamente o lema 7.4.10 concluı́mos que f 0 é diagonalizável. 
7.5.1. Operadores diagonalizáveis. Graças ao corolário 7.5.4 podemos ca-
racterizar os sub-espaços invariantes de um endomorfismo diagonalizável, como mos-
tra o seguinte corolário.
Corolário 7.5.5. Seja f : V → V um endomorfismo diagonalizável. Um sub-
espaço W ⊂ V é f -invariante se, e somente se, existe uma base de W formada por
autovetores de f . Equivalentemente, sejam λ1 , . . . , λk so autovalores distintos de f
e seja V = Vλ1 ⊕ · · · ⊕ Vλk a decomposição correspondente de V . Um sub-espaço
W ⊂ V é f -invariante se, e somente se, para todo i ∈ {1, . . . , k} existe um subespaço
Wi ⊂ Vλi (que pode ser nulo) tal que W = W1 ⊕ · · · ⊕ Wk . Tirando os termos nulos,
esta decomposição coincide com a de W como soma direta dos seus auto-espaços.
7.7. TEOREMAS ESPECTRAIS 269

Demonstração. (⇒) Como f 0 é diagonalizável pelo lema 7.5.4, existe uma


base B de W formada por autovetores de f 0 . É imediato verificar que um auto-
vetor de f 0 é também um autovetor de f associado ao mesmo autovalor, portanto
B é formada por autovetores de f . Logo, se W = Wµ1 ⊕ · · · ⊕ Wµh for a decom-
posição de W como soma direta dos auto-espaços de f 0 , existe uma função injetora
ϕ : {1, . . . , h} ,→ {1, . . . , k} tal que µi = λϕ(i) , portanto Wµi ⊂ Vλϕ(i) . (⇐) Seja w =
w1 + · · · + wk ∈ W , sendo wi ∈ Wi . Temos que f (w) = λ1 w1 + · · · + λk wk ∈ W . 
7.5.2. Operadores triangularizáveis.
7.5.3. Operadores reais genéricos.
7.6. Operadores que comutam
7.7. Teoremas espectrais
Nesta seção estudaremos uma famı́lia de teoremas, ditos teoremas espectrais, que
caracterizam algumas classes significativas de operadores através da maneira em que
podem ser diagonalizados.
7.7.1. Autovalores de algumas classes de operadores. No capı́tulo pre-
cedente estudamos os operadores (reais) simétricos, antissimétricos e ortogonais e
os (complexos) Hermitianos, anti-Hermitianos e unitários. Podemos caracterizar os
autovalores dos operadores pertencentes a estas classes, começando pelas famı́lias
complexas.
Lema 7.7.1. Seja V ⊂ Cn um sub-espaço vetorial e seja f : V → V um operador
Hermitiano. Todo autovalor de f é real.
Demonstração. Seja λ ∈ C um autovalor de f e seja v ∈ V um autovetor
associado a λ. Temos que:
hf (v), vi = hλv, vi = λ̄kvk2 hv, f (v)i = hv, λvi = λkvk2 .
Sendo f Hermitiana estes dois valores coincidem, portanto λ = λ̄, ou seja, λ ∈ R. 
Observação 7.7.2. Podemos demonstrar o lema 7.7.1 também com a linguagem
das matrizes. De fato, seja A ∈ M (n; C) Hermitiana e seja v ∈ Cn um autovetor de
A. Temos que
λ̄kvk2 = (λkvk2 )† = (v † Av)† = v † A† v = v † Av = λkvk2 ,
logo λ̄ = λ, ou seja, λ ∈ R. ♦
Lema 7.7.3. Seja V ⊂ Cn um sub-espaço vetorial e seja f : V → V um operador
anti-Hermitiano. Todo autovalor de f é imaginário puro.
Demonstração. Seja λ ∈ C um autovalor de f e seja v ∈ V um autovetor
associado a λ. Temos que:
hf (v), vi = hλv, vi = λ̄kvk2 hv, f (v)i = hv, λvi = λkvk2 .
Sendo f anti-Hermitiana estes dois valores são opostos, portanto λ = −λ̄, ou seja,
λ ∈ iR. 
270 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Observação 7.7.4. Podemos demonstrar o lema 7.7.3 também com a linguagem


das matrizes. De fato, seja A ∈ M (n; C) anti-Hermitiana e seja v ∈ Cn um autovetor
de A. Temos que
λ̄kvk2 = (λkvk2 )† = (v † Av)† = v † A† v = −v † Av = −λkvk2 ,
logo λ̄ = −λ, ou seja, λ ∈ iR. ♦
Lema 7.7.5. Seja V ⊂ Cn um sub-espaço vetorial e seja f : V → V um operador
unitário. Todo autovalor de f é um número complexo de módulo 1.
Demonstração. Seja λ ∈ C um autovalor de f e seja v ∈ V um autovetor
associado a λ. Temos que:
hf (v), f (v)i = hλv, λvi = |λ|2 kvk2 hv, vi = kvk2 .
Sendo f unitário estes dois valores coincidem, portanto λ ∈ U (1). 
Observação 7.7.6. Podemos demonstrar o lema 7.7.5 também com a linguagem
das matrizes. De fato, seja A ∈ M (n; C) unitária e seja v ∈ Cn um autovetor de A.
Temos que
|λ|2 kvk2 = (Av)† (Av) = v † A† Av = v † v = kvk2 ,
logo |λ| = 1, ou seja, λ ∈ U (1). ♦
Agora vamos considerar as famı́lias reais. Neste caso o polinômio caracterı́stico
pode não ser completamente redutı́vel, mas isso não ocorre com os operadores
simétricos. Por exemplo, consideremos uma matriz real simétrica de ordem 2:
 
a b
A= .
b d
O polinômio caracterı́stico é χA (λ) = λ2 − (a + d)λ + (ad − b2 ), portanto o discrimi-
nante é ∆ = (a + d)2 − 4(ad − b2 ) = (a − d)2 + 4b2 ≥ 0, logo χA (λ) é completamente
redutı́vel em R[λ]. Isso implica que A é trinagularizável como matriz real. O seguinte
lema mostra que o mesmo resultado vale para matrizes e endomorfismos simétricos
de qualquer ordem.
Lema 7.7.7. Seja V ⊂ Rn um sub-espaço vetorial e seja f : V → V um operador
simétrico. O polinômio caracterı́stico de f é completamente redutı́vel em R[λ].
Demonstração. A complexificação fC : VC → VC , sendo VC ⊂ Cn a menos de
isomorfismo, é Hermitiana, portanto todo autovalor de fC é real pelo lema 7.7.1.
Como χf = χfC , obtemos o resultado. 
Corolário 7.7.8. Um endomorfismo simétrico é triangularizável como endo-
morfismo real. O mesmo vale para uma matriz real simétrica.
Veremos na próxima seção que vale um resultado bem mais forte que o corolário
precedente. Enfim, terı́amos que considerar os endomorfismos antissimétricos e or-
togonais, mas, nestes casos, o polinômio caracterı́stico pode não ser completamente
redutı́vel. Só podemos enunciar os seguintes resultados, cujas demostrações são
análogas à do lema 7.7.7.
7.7. TEOREMAS ESPECTRAIS 271

Lema 7.7.9. Seja V ⊂ Rn um sub-espaço vetorial e seja f : V → V um ope-


rador antissimétrico. Todo autovalor de fC é imaginário puro, portanto, se f for
um isomorfismo, então não possui autovalores reais, enquanto, se f não for um
isomorfismo, então o único autovalor real de f é 0.
Lema 7.7.10. Seja V ⊂ Rn um sub-espaço vetorial e seja f : V → V um operador
ortogonal. Todo autovalor de fC é um número complexo de módulo 1, portanto, se
f possuir autovalores reais, então cada um deles é igual a 1 ou a −1.
7.7.2. Operadores orto-diagonalizáveis. Seja f : V → V um operador real
ou complexo. Na seção precedente caracterizamos os sub-espaços invariantes de
f . Supondo que V ⊂ Kn , dado um sub-espaço invariante W ⊂ V , fica definido o
complemento ortogonal W ⊥V . Pode acontecer que também W ⊥V seja invariante,
mas em geral isso não vale. Por exemplo, seja f : R2 → R2 , (x, y) 7→ (x + y, y).
O sub-espaço W = h(1, 0)i é invariante, pois f (1, 0) = (1, 0), mas o complemento
ortogonal W ⊥ = h(0, 1)i não o é, pois f (0, 1) = (1, 1).
Definição 7.7.11. Seja f : V → V um operador real ou complexo, sendo V ⊂
Kn . O operador f preserva o complemento ortogonal se, para todo sub-espaço f -
invariante W ⊂ V , o complemento ortogonal W ⊥V é também f -invariante. ♦
Um operador real pode preservar o complemento ortogonal sem ser triangu-
larizável. Por exemplo, seja f uma rotação em R2 diferente de ±I2 . Os únicos
sub-espaços f -invariantes são {0} e R2 , portanto é evidente que f respeita o com-
plemento ortogonal, mas não é trinagularizável. Contudo, veremos daqui a pouco
que, se f for trianguarizável e preservar o complemento ortogonal, então é também
diagonalizável de uma maneira particularmente significativa. Antes disso, vamos
introduzir uma condição mais fraca, que mostraremos ser equivalente à definição
7.7.11 para operadores triangulaizáveis.
Definição 7.7.12. Seja f : V → V um operador real o complexo, sendo V ⊂
n
K . O operador f preserva o complemento ortogonal dos autoespaços se, para todo
autovalor λ̃ de f , o complemento ortogonal do autoespaço correspondente (Vλ̃ )⊥V é
f -invariante. ♦
Lema 7.7.13. Seja f : V → V um operador que preserva o complemento orto-
gonal (dos autoespaços) e seja W ⊂ V um sub-espaço f -invariante. A restrição
f 0 := f |W : W → W preserva o complemento ortogonal (dos autoespaços).
Demonstração. Suponhamos que f preserve o complemento ortogonal. Seja
Z ⊂ W um sub-espaço f 0 -invariante. Obviamente Z é também f -invariante. Temos
que Z ⊥W = Z ⊥V ∩ W . Como f (Z ⊥V ) ⊂ Z ⊥V e f (W ) ⊂ W , temos que f (Z ⊥W ) ⊂
Z ⊥W , logo Z ⊥W é f 0 -invaraiante. Agora suponhamos que f preserve o complemento
ortogonal dos autoespaços. Seja Wλ um autoespaço de f 0 . Obviamente Wλ ⊂ Vλ ,
sendo Vλ o autoespaço correspondente de f . Seja Wλ0 := (Wλ )⊥Vλ . Temos que
(Wλ )⊥V = Wλ0 ⊕ (Vλ )⊥V . Como f (Wλ0 ) ⊂ Wλ0 (pois cada elemento não nulo de
Wλ0 é um autovetor) e f ((Vλ )⊥V ) ⊂ (Vλ )⊥V por hipótese, temos que f ((Wλ )⊥V ) ⊂
(Wλ )⊥V . Dado que (Wλ )⊥W = (Wλ )⊥V ∩ W e f (W ) ⊂ W , temos que f ((Wλ )⊥W ) ⊂
(Wλ )⊥W . 
272 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Sabemos que um endomorfismo f : V → V é diagonalizável se, e somente se,


existe uma base de V formada por autovetores de f . Se existir uma base ortonormal
deste tipo, então f é dito orto-diagonalizável.
Definição 7.7.14. Um operador f : V → V , sendo V ⊂ Kn , é dito orto-
diagonalizável se existir uma base ortonormal de V formada por autovetores de f .
Uma matriz A ∈ M (n; K) é dita orto-diagonalizável se o operador correspondente
v 7→ Av o for. ♦
É claro que um operador orto-diagonalizável é em particular diagonalizável, mas
não vale a volta. Por exemplo, o operador f : R2 → R2 tal que f (1, 0) = (1, 0) e
f (1, 1) = (2, 2) é diagonalizável, mas não existem bases ortonormais de R2 formadas
por autovetores de f .
Lema 7.7.15. Um operador diagonalizável f : V → V é orto-diagonalizável se, e
somente se, os auto-espaços distintos de f são ortogonais entre si.
Demonstração. Sejam λ1 , . . . , λk os autovalores distintos de f . (⇒) Seja
A = {v 1,1 , . . . , v 1,m1 , . . . , v k,1 , . . . , v k,mk } uma base ortonormal de V formada por
autovetores de f , sendo Vλi = hv i,1 , . . . , v i,mi i. Sendo A ortonormal, v i,j ⊥v i0 ,j 0 para
i 6= i0 , logo Vλi ⊥Vλi0 . (⇐) Seja Ai = {v i,1 , . . . , v i,mi } uma base ortonormal do auto-
espaço Vλi para todo i entre 1 e k. A base A = A1 ∪ . . . ∪ Ak de V é ortonormal e
é formada por autovetores de f . 
Lema 7.7.16. Seja A ∈ M (n; C). As seguintes condições são equivalentes:
(1) A é orto-diagonalizável;
(2) existe uma matriz unitária U ∈ U(n) tal que U −1 AU (equivalentemente,
U † AU ) é diagonal;
(3) existe uma matriz unitária especial U ∈ SU(n) tal que U −1 AU (equivalen-
temente, U † AU ) é diagonal.
O mesmo enunciado vale para A ∈ M (n; R) e U ∈ O(n) ou U ∈ SO(n).
Demonstração. (1) ⇔ (2) Ambas as condições (1) e (2) implicam que A
é diagonalizável. Seja A uma base de Cn formada por autovetores de A e seja
∆ = µA (v 7→ Av). Claramente ∆ é diagonal. Seja U := µ(C, A), sendo C a
base canônica. As colunas de U são os vetores de A e ∆ = U −1 AU . A base A é
ortonormal se, e somente se, as colunas de U formam uma base ortonormal, o que
equivale ao fato que U é unitária. (2) ⇒ (3) Seja ∆ = U −1 AU , com U ∈ U(n).
Então U = µ(C, A), sendo A = {v 1 , . . . , v n } uma base ortonormal de autovetores
de A. Seja det U = eiθ . É claro que B = {e−iθ v 1 , v 2 , . . . , v n } é também uma base
ortonormal de autovetores de A, portanto, se V for a matriz cujas colunas são os
elementos de B, temos que V −1 AV é diagonal é V ∈ SU(n). (3) ⇒ (2) Óbvio. 
Lema 7.7.17. Sejam V ⊂ Kn um subespaço vetorial e f : V → V um endomor-
fismo. Se A for uma base ortonormal de V , então f é orto-diagonalizável se, e
somente se, µA (f ) o é.
Demonstração. Seja A = µA (f ). (⇒) Sejam B uma base ortonormal de
autovetores e ∆ = µB (f ). Enfim, seja U = µ(A, B). Temos que ∆ = U −1 AU e
7.7. TEOREMAS ESPECTRAIS 273

U é unitária ou ortogonal, pois é a matriz de mudança de base entre duas bases


ortonormais. Pelo lema 7.7.16, A é orto-diagonalizável. (⇔) Seja U ∈ U(n) ou
U ∈ SO(n) tal que ∆ := U −1 AU é diagonal. Seja B a base tal que µ(A, B) = U .
Então B é ortonormal e µB (f ) = ∆ é diagonal. 
O seguinte teorema mostra que a noção de operador orto-diagonalizável e a de
operador que preserva o complemento ortogonal são estritamente ligadas entre si.
Teorema 7.7.18. Seja f : V → V um operador, sendo V ⊂ Kn . As seguintes
condições são equivalentes:
(1) f é trinagularizável e preserva o complemento ortogonal;
(2) f é trinagularizável e preserva o complemento ortogonal dos auto-espaços;
(3) f é orto-diagonalizável.
Demonstração. (1) ⇒ (2) Óbvio, pois um auto-espaço de f é f -invariante.
(2) ⇒ (3) Indução sobre n = dim V . Se n = 1 o resultado é óbvio, pois qualquer
vetor unitário de V forma uma base ortonormal de autovetores. Para n genérico,
como f é trinagularizável existe um autovalor λ̃ de f . Sejam A0 = {a1 , . . . , ak } uma
base ortonormal de Vλ̃ e W = (Vλ̃ )⊥V . Seja f 0 := f |W : W → W . Pelo corolário
7.5.3 f 0 é trinauglarizável e pelo lema 7.7.13 preserva o complemento ortogonal do
autoespaços. Logo, pela hipótese de indução, existe uma base ortonormal A00 de
autovetores de f 0 , portanto A := A0 ∪ A00 é uma base ortonormal de autovetores de
f . (3) ⇒ (1) Seja W ⊂ V um sub-espaço f -invariante e seja V = V1 ⊕ · · · ⊕ Vk
a decomposição de V em auto-espaços de f . Pelo corolário 7.5.5 temos que W =
W1 ⊕ · · · ⊕ Wk , sendo Wi um sub-espaço (que pode também ser nulo) de Vi . Pelo
lema 7.7.15 os sub-espaços Wi são ortogonais entre si, portanto W ⊥V = (W1 )⊥V1 ⊕
· · · ⊕ (Wk )⊥Vk , logo W ⊥V é f -invariante pelo corolário 7.5.5. 
7.7.3. Teoremas espectrais. O seguinte lema mostra que as classes funda-
mentais de operadores que estudamos preservam o complemento ortogonal.
Lema 7.7.19. Se valer uma das seguintes condições, então o operador f : V → V ,
sendo V ⊂ Kn , preserva o complemento ortogonal:
(1) f é (complexo) Hermitiano;
(2) f é (complexo) anti-Hermitiano;
(3) f é (complexo) unitário;
(4) f é (real) simétrico;
(5) f é (real) antissimétrico;
(6) f é (real) ortogonal.
Demonstração. (1), (4). Seja W ⊂ V um sub-espaço invariante e seja v ∈
W . Devemos demonstrar que f (v) ∈ W ⊥ . De fato, para todo w ∈ W , temos

hw, f (v)i = hf (w), vi = 0, pois f (w) ∈ W . (2), (5) A demonstração é análoga à


precedente, colocando o sinal negativo onde necessário. (3), (6) Pelas observações
4.4.2 e 6.4.2 o operador f é um automorfismo de V , logo, dado w ∈ W , existe
w0 ∈ W tal que w = f (w0 ). Seja v ∈ W ⊥ e demonstremos que f (v) ∈ W ⊥ . Para
todo w = f (w0 ) ∈ W temos hw, f (v)i = hf (w0 ), f (v)i = hw0 , vi = 0. 
274 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

Corolário 7.7.20 (Teorema espectral complexo - caso Hermitiano). Um ope-


rador complexo f : V → V é Hermitiano se, e somente se, todo autovalor de f é
real e f é orto-diagonalizável.
Demonstração. (⇒) Todo autovalor de f é real pelo lema 7.7.1 e f é orto-
diagonalizável pelos lemas 7.7.19 e 7.7.18. (⇐) Seja A uma base ortonormal de
autovetores de f . A matriz µA (f ) é diagonal e com entradas reais, portanto é
Hermitiana. Como f é representado por uma matriz Hermitiana a respeito de uma
base ortonormal, é Hermitiano. 
Corolário 7.7.21 (Teorema espectral complexo - caso anti-Hermitiano). Um
operador complexo f : V → V é anti-Hermitiano se, e somente se, todo autovalor
de f é imaginário puro e f é orto-diagonalizável.
Demonstração. (⇒) Todo autovalor de f é imaginário puro pelo lema 7.7.3 e
f é orto-diagonalizável pelos lemas 7.7.19 e 7.7.18. (⇐) Seja A uma base ortonormal
de autovetores de f . A matriz µA (f ) é diagonal e com entradas imaginárias puras,
portanto é anti-Hermitiana. Como f é representado por uma matriz anti-Hermitiana
a respeito de uma base ortonormal, é anti-Hermitiano. 
Corolário 7.7.22 (Teorema espectral complexo - caso unitário). Um operador
complexo f : V → V é unitário se, e somente se, todo autovalor de f é um número
de módulo 1 e f é orto-diagonalizável.
Demonstração. (⇒) Todo autovalor de f é um número de módulo 1 pelo
lema 7.7.5 e f é orto-diagonalizável pelos lemas 7.7.19 e 7.7.18. (⇐) Seja A uma
base ortonormal de autovetores de f . A matriz µA (f ) é diagonal e com entradas de
módulo 1, portanto é unitária. Como f é representado por uma matriz unitária a
respeito de uma base ortonormal, é unitário. 
Corolário 7.7.23 (Teorema espectral real - caso simétrico). Um operador real
f : V → V é simétrico se, e somente se, é orto-diagonalizável.
Demonstração. (⇒) O operador f é triangularizável pelo lema 7.7.7 e f é
orto-diagonalizável pelos lemas 7.7.19 e 7.7.18. (⇐) Seja A uma base ortonormal
de autovetores de f . A matriz µA (f ) é diagonal, portanto é simétrica. Como f
é representado por uma matriz simétrica a respeito de uma base ortonormal, é
simétrico. 
Considerando os quatro teoremas espectrais que vimos, parece natural fazer duas
perguntas.
(1) Não podemos continuar da mesma maneira com os casos reais antissimétrico
e ortogonal, pois, em geral, não se trada de endomorfismos triangularizáveis,
portanto, enquanto o lema 7.7.19 se aplica também a estes casos, o lema
7.7.18 não pode ser aplicado. Existe um teorema espectral também nestes
casos, generalizando a noção de orto-diagonalizabilidade?
(2) O teorema espectral real, no caso simétrico, caracteriza todos os endomorfis-
mos orto-diagonalizáveis, enquanto os três teoremas espectrais complexos
que vimos impõem uma condição sobre os autovalores. É possı́vel achar
7.7. TEOREMAS ESPECTRAIS 275

uma caracterização análoga de todos os endomorfismos complexos orto-


diagonalizáveis?
Veremos daqui a pouco que as duas respostas são positivas. Comecemos pela se-
gunda. Seja f : V → V um endomorfismo complexo orto-diagonalizável. Seja
A = {a1 , . . . , an } uma base ortornomal de autovetores, sendo f (ai ) = λi ai . É ime-
diato verificar que o adjunto de f é o operador tal que f ∗ (ai ) = λ̄i ai . Isso pode ser
verificado diretamente a partir da definição de operador adjunto ou observando que,
sendo A ortonormal, µA (f ∗ ) = µA (f )† e, sendo µA (f ) diagonal, µA (f )† = µA (f ).
Isso implica que A é uma base que diagonaliza simultaneamente f e f ∗ , portanto f
e f ∗ comutam.
Definição 7.7.24. Um operador (real ou complexo) f : V → V é dito normal
se comuta com o seu adjunto f ∗ . ♦
Acabamos de demostrar que, se um operador complexo f for orto-diagonalizável,
então é normal. Vamos demostrar que vale também a volta. Para isso, precisamos
de dois lemas sobre o operador adjunto em geral.
Lema 7.7.25. Seja f : V → V um operador (real ou complexo) e sejam λ1 , . . . , λk
os autovalores distintos de f . Então os autovalores distintos de f ∗ são os conjugados
λ̄1 , . . . , λ̄k , com as mesmas multiplicidades algébrica e geométrica. Em particular,
se f for real, os autovalores de f e de f ∗ coincidem.
Demonstração. Seja A uma base ortonormal de V . Se A = µA f , então
A = µA (f ∗ ). Temos que

χA† (λ̄) = det(A† − λ̄I) = det(A − λI)† = χA (λ)


portanto χA† (λ̄) = 0 se, e somente se, χA (λ) = 0, com a mesma multiplicidade.
Enfim, como A† − λ̄I = (A − λI)† , temos que rk(A† − λ̄I) = rk(A − λI), portanto
as multiplicidades geométricas coincidem. 
Lema 7.7.26. Seja f : V → V um operador (real ou complexo) e sejam λ1 , . . . , λk
os autovalores distintos de f . Sejam Vλ1 , . . . , Vλk os auto-espaços de f e Vλ̄1 , . . . , Vλ̄k
os auto-espaços de f ∗ . Se i 6= j, entaõ Vλi ⊥Vλ̄j .
Demonstração. Sejam v i ∈ Vλi e v j ∈ Vλ̄j . Temos que:
hv i , f (v j )i = λj hv i , v j i hf ∗ (v i ), v j i = λi hv i , v j i
logo (λi − λj )hv i , v j i = 0. Como λi 6= λj , concluı́mos que hv i , v j i = 0. 
Agora podemos voltar a considerar os operadores normais.
Lema 7.7.27. Seja f : V → V um operador normal (real ou complexo) e seja λ
um autovalor de f . O autoespaço Vλ de f coincide com o autoespaço Vλ̄ de f ∗ .
Demonstração. Seja v ∈ Vλ . Temos que
f (f ∗ (v)) = f ∗ (f (v)) = f ∗ (λv) = λf ∗ (v),
portnato f ∗ (Vλ ) ⊂ Vλ . Sejam f 0 := f |Vλ : Vλ → Vλ e (f 0 )∗ := (f ∗ )|Vλ : Vλ → Vλ . É
claro que (f 0 )∗ é a adjunta de f 0 . Como f 0 = λI e hλv, wi = hv, λ̄wi, pela unicidade
276 7. FORMAS CANÔNICAS DOS ENDOMORFISMOS

da adjunta temos que (f 0 )∗ = λ̄I. Isso demonstra que Vλ ⊂ Vλ̄ . Trocando f e f ∗


deduzimos que Vλ̄ ⊂ Vλ , portanto vale a igualdade. 
Teorema 7.7.28 (Teorema espectral complexo). Um operador complexo f : V →
V é normal se, e somente se, é orto-diagonalizável. Neste caso, sejam V = Vλ1 ⊕
· · · ⊕ Vλk e V = Vλ̄1 ⊕ · · · ⊕ Vλ̄k as decomposições ortogonais de V em autoespaços
de f e de f ∗ . Temos que Vλi = Vλ̄i para todo i, portanto as duas decomposições
concidem.
Demonstração. O fato que as decomposições em autoespaços de f e f ∗ coinci-
dam segue imeadiatamente do lema 7.7.27. (⇒) Vamos demostrar que f preserva o
complemento ortogonal dos autoespaços. Seja λ um atuovalor de f e seja w ∈ (Vλ )⊥ .
Vamos demostrar que f (w) ∈ (Vλ )⊥ . Dado v ∈ Vλ , pelo lema 7.7.27 temos que
f ∗ (v) = λ̄v, portanto
hv, f (w)i = hf ∗ (v), wi = λhv, wi = 0.
Pelo lema 7.7.18 f é orto-diagonalizável. (⇐) Seja A = {a1 , . . . , an } uma base
ortornomal de autovetores, sendo f (ai ) = λi ai . É imediato verificar que o adjunto
de f é o operador tal que f ∗ (ai ) = λ̄i ai . Isso implica que A é uma base que
diagonaliza simultaneamente f e f ∗ , portanto f e f ∗ comutam. 
Observação 7.7.29. Pelo lema 7.7.18, o teorema 7.7.28 podia ser enunciado
equivalentemente afirmando que um operador complexo é normal se, e somente se,
preserva o complemento ortogonal. ♦
Observação 7.7.30. O conjunto dos operadores normais não forma nem um
grupo nem um espaço vetorial. De fato, em geral, a composição e a soma de dois
operadores normais não são normais. ♦
Com isso respondemos à segunda pergunda formulada após o corolário 7.7.23.
Agora temos que responder à primeira. Além disso, podemos formular mais uma
pergunta.
(3) O teorema espectral complexo concerne os operadores complexos normais.
Contudo, a propriedade de ser normal pode ser satisfeita por operadores
reais e complexos. Existe uma versão análoga do teorema espectral para os
operadores reais normais?
7.8. Projetores, resolução espectral e resolução da identidade
7.9. Exercı́cios – Parte II
7.1. Seja A ∈ M (n; R) uma matriz simétrica. Sejam λ1 , λ2 ∈ R dois autova-
lores (necessariamente reais) distintos de A. Sejam v 1 e v 2 autovetores associados
respetivamente a λ1 e λ2 . Então hv 1 , v 2 i = 0.
CAPı́TULO 8

Formas bilineares e hermitianas

No capı́tulo ?? estudamos o produto escalar e o produto hermitiano canônicos em


Rn e Cn . Agora estudamos as formas bilineares e Hermitianas em geral, considerando
como casos particulares os produtos escalares e hermitianos, dos quais os canônicos
são somente um exemplo.

8.1. Funções bilineares reais


Dados três espaços vetoriais reais V , W e Z, já mostramos a definição ?? de
função bilinear f : V × W → Z. Nesse capı́tulo consideramos o caso Z = R. Alguns
resultados que vamos mostrar valem também para Z genérico sem variações, outros
tem que ser generalizados adequadamente.
Exemplo 8.1.1. Seja A ∈ M (m, n; R). Mostrar que a função:
f : Rm × Rn → R
(239)
(v, w) 7→ v T Aw
é bilinear.
Podemos verificar diretamente que é linear em ambas as componentes. Alter-
nativamente, reparamos que f (v, w) = hv, Awi. Como o produto escalar em Rm é
biliner e a função w 7→ Aw de Rn a Rm é linear, obtemos o resultado. ♦
Exemplo 8.1.2. Mostrar que, para qualquer função bilinear f : Rm × Rn → R,
existe uma única matriz A ∈ M (m, n; R) tal que f (v, w) = v T Aw.
Sejam C = {e1 , . . . , em } a base canônica de Rm e C 0 = {e01 , . . . , e0n } a de Rn . Seja
A = [f (ei , e0j )]. Temos que:
Pm Pn 0
 Pm Pn 0 T
f (v, w) = f i=1 vi ei , j=1 wj ej = i=1 j=1 vi wj f (ei , ej ) = v Aw.

Claramente a matriz A é única, pois suas entradas são determinadas por f . ♦


Com os exemplos precedentes conseguimos descrever todas as funçoes bilineares
de Rm × Rn a R, através de uma matriz A ∈ M (m, n; R), sendo a função dada por
(v, w) 7→ v T Aw. Isso é análogo à descrição das funções lineares de Rn a Rm através de
uma matriz A ∈ M (m, n; R), sendo a função dada por w 7→ Aw. No caso das funções
lineares, esta descrição é um caso particular do coinceito de matriz representativa.
Verificaremos daqui a pouco que vale o mesmo a respeito de uma função bilinear.
Antes temos que mostrar umas definições e uns resultados, mentendo o paralelismo
com a teoria das funções lineares.
277
278 8. FORMAS BILINEARES E HERMITIANAS

Definição 8.1.3. Seja f : V × W → R uma função bilinear.1 O núcleo esquerdo


de f é o seguinte conjunto: LKer(f ) := {v ∈ V : f (v, w) = 0 ∀w ∈ W }. O núcleo
direito de f é o seguinte conjunto: RKer(f ) := {w ∈ W : f (v, w) = 0 ∀v ∈ V }. ♦
Lema 8.1.4. Dada uma função bilinear f : V × W → R, o núcleo esquerdo é um
sub-espaço vetorial de V e o núcleo direito é um sub-espaço vetorial de W .
Demonstração. Sejam v 1 , v 2 ∈ LKer(f ) e λ1 , λ2 ∈ R. Para todo w ∈ W ,
temos que f (λ1 v 1 + λ2 v 2 ) = λ1 f (v 1 , w) + λ2 f (v 2 , w) = λ1 0 + λ2 0 = 0, logo λ1 v 1 +
λ2 v 2 ∈ LKer(f ). Uma prova análoga vale para RKer(f ). 
Lema 8.1.5. Sejam A ∈ M (m, n; R) e f : Rm × Rn → R a função bilinear
(v, w) 7→ v T Aw. Então:
RKer(f ) = {w ∈ W : Aw = 0} LKer(f ) = {v ∈ V : AT v = 0}.
Logo, dim LKer(f ) = m − rk(A) e dim RKer(f ) = n − rk(A). Em particular, se
n = m então dim LKer(f ) = dim RKer(f ).
Demonstração. Temos que f (v, w) = hv, Awi, logo, pelo corolário ??, temos
que w ∈ RKer(f ) se, e somente se, Aw = 0. Ademais, temos que f (v, w) = hAT v, wi,
logo, pelo corolário ??, temos que v ∈ LKer(f ) se, e somente se, AT v = 0. 
Corolário 8.1.6. Com as mesmas notações do lema precedente, o núcleo direito
de f é o complemento ortogonal do sub-espaço de Rm gerado pelas linhas de A,
enquanto o núcleo esquerdo é o complemento ortogonal do sub-espaço de Rn gerado
pelas colunas de A.
Exemplo 8.1.7. Seja f : R2 ×R3 → R a função bilinear representada pela matriz:
 
1 1 0
A= .
0 1 2
Calcular LKer(f ) e RKer(f ).
Aplicamos o lema 8.1.5. Para w = (x, y, z), a partir de Aw = 0 obtemos o sitema
x + y = 0 e y + 2z = 0, portanto y = −2z e x = 2z, logo RKer(f ) = h(2, −2, 1)i.
Como rk(A) = 2, a equação AT v = 0 só tem a solução nula, logo LKer(f ) = {0}. ♦
8.1.1. Estrutura linear. Vimos que o conjunto das funções lineares de V a
W , que chamamos de Hom(V, W ), tem uma estrutura natural de espaço vetorial.
Vamos ver que vale o mesmo para o conjunto das funções bilineares de V × W a R
(ou a qualquer contra-domı́nio Z), que chamamos de Bil(V, W ). As operações são
definidas da seguinte maneira. Sejam f, g ∈ Bil(V, W ) e λ ∈ R:
• (f + g)(v, w) := f (v, w) + g(v, w);
• (λf )(v, w) := λf (v, w).
Verifiquemos que f + g e λf são bilineares. Sejam v 1 , v 2 ∈ V , w ∈ W e µ1 , µ2 ∈ R.
Temos que:
(f + g)(µ1 v 1 + µ2 v 2 , w) = f (µ1 v 1 + µ2 v 2 , w) + g(µ1 v 1 + µ2 v 2 , w)
1Nesta definição e no lema seguinte o contra-domı́nio poderia ser também um espaço vetorial
genérico Z.
8.1. FUNÇÕES BILINEARES REAIS 279

= µ1 f (v 1 , w) + µ2 f (v 2 , w) + µ1 g(v 1 , w) + µ2 g(v 2 , w)
= µ1 (f + g)(v 1 , w) + µ2 (f + g)(v 2 , w).
e:
(λf )(µ1 v 1 + µ2 v 2 , w) = λf (µ1 v 1 + µ2 v 2 , w)
= λ(µ1 f (v 1 , w) + µ2 f (v 2 , w))
= µ1 (λf )(v 1 , w) + µ2 (λf )(v 2 , w).
Provas análogas valem a respeito da segunda componente. Poderı́amos também
raciocinar da seguinte maneira. Para cada w ∈ W fixado, as funções v 7→ f (v, w) e
v 7→ g(v, w) são lineares de V a R, logo, sendo a soma bem definida em Hom(V, R),
a função v 7→ f (v, w) + g(v, w) = (f + g)(v, w) é linear. O mesmo vale a respeito da
segunda componente, portanto f + g é bilinear. Uma prova análoga vale para λf .
Isso mostra que Bil(V, W ) é um espaço vetorial. Mostraremos daqui a pouco que
a dimensão dele é dim V dim W .
8.1.2. Matriz representativa. Vimos que, fixadas uma base A de V e uma
base B de W , obtemos um isomorfismo de espaços vetoriais µAB : Hom(V, W ) →
M (m, n; R), sendo n = dim V e m = dim W . Vamos ver que pode-se reproduzir
uma construção análoga para o espaço das funções bilineares de V × W a R.
Definição 8.1.8. Sejam f : V × W → R uma função bilinear, A = {a1 , . . . , am }
uma base de V e B = {b1 , . . . , bn } uma base de W . A matriz representativa de f a
respeito de A e B é definida da seguinte maneira:
νAB (f ) := [f (ai ), f (bj )].

Sejam v = λ1 a1 + · · · + λm am e w = µ1 b1 + · · · + µn bn . Sejam λ = (λ1 , . . . , λm )T ∈
Rm e µ = (µ1 , . . . , µn )T ∈ Rn . É imediato verificar que, pela bilinearidade de f :
(240) f (v, w) = λT · νAB (f ) · µ.
No caso particular em que V = Rm , W = Rn e A e B são as bases canônicas,
obtemos a fórmula (239).
Lema 8.1.9. Sejam V e W espaços vetoriais reais, A uma base de V e B uma
base de W . A função:
νAB : Bil(V, W ) → M (m, n; R)
é um isomorfismo de espaços vetoriais. Em particular, dim Bil(V, W ) = dim V dim W .
Demonstração. A função νAB é linear. De fato, sejam f, g ∈ Bil(V, W ) e
λ, µ ∈ R. Temos que νAB (λf + µg) = [(λf + µg)(ai , bj )] = [λf (ai , bj ) + µg(ai , bj )] =
λνAB (f ) + µνAB (g). É injetora, pois, se νAB (f ) = 0, então f (ai , bj ) = 0 para todos i
e j, logo, por bilinearidade, f (v, w) = 0 para todos v ∈ V e w ∈ W , portanto f = 0.
Enfim é sobrejetora. De fato, para definir uma função bilinear f , é suficiente definir
o valor sobre os vetores de A e de B. Logo, dada uma matriz A = [αij ] ∈ M (m, n; R),
280 8. FORMAS BILINEARES E HERMITIANAS

conisderamos a função f ∈ Bil(V, W ) tal que f (ai , aj ) = αij . Então, por definição,
νAB (f ) = A. 
Exemplo 8.1.10. Seja f : R3 × R2 → R a função bilinear f ((x, y, z), (x0 , y 0 )) =
2xx0 +3xy 0 −zy 0 . Achar a matriz representativa a respeito das bases canônicas de R3 e
R2 e a respeito das bases A = {(1, 1, 1), (1, 1, −1), (1, 0, 1)} e B = {(1, 2), (−1, −1)}.
A respeito das bases canônicas obtemos a matriz dos coeficientes, ou seja:
 
2 3
A = 0 0  .
0 −1
A respeito de A e B, temos que f ((1, 1, 1), (1, 2)) = 6, f ((1, 1, 1), (−1, −1)) = −4 e
assim em diante. Obtemos a matrix:
 
6 −4
B = 10 −6 .
6 −4

Vamos ver como se comporta a matriz respresentativa mudando as bases. Sejam
A = {a1 , . . . , am } e A0 = {a01 , . . . , a0m } bases de V e sejam B = {b1 , . . . , bn } e
B 0 = {b01 , . . . , b0n } bases de W . Sejam A = [αij ] = νAB (f ) e B = [βij ] = νA0 B0 (f ).
Enfim, sejam C = [γij ] = µ(A, A0 ) e D = [θij ] = µ(B, B 0 ). Temos que:
Pm Pn
βij = f (a0i , b0j ) = f

k=1 γ ki a k , h=1 θhj b h
= m
P Pn Pm Pn
k=1 γ θ
h=1 ki hj f (a ,
k h b ) = k=1 h=1 γki θhj αkh
Pm Pn T
= k=1 h=1 γik αkh θhj
logo:
(241) B = C T AD.
Esta fórmula é parecida com a (21). De fato cada uma pode ser deduzida da outra,
como mostraremos no último capı́tulo. As matrizes C e D são intertı́veis e C T é
invertı́vel se, e somente se, C for, portanto obtemos o seguinte teorema:
Teorema 8.1.11. Sejam A, B ∈ M (m, n). Então existem:
• dois espaço vetoriais finitamente gerados V e W ;
• uma função bilinear f : V × W → R;
• duas bases A, A0 de V e duas bases B, B 0 de W
tais que νAB (f ) = A e νA0 B0 (f ) = B se, e somente se, A e B são µ-equivalentes, ou
seja, se, e somente se, A e B têm o mesmo posto.
Demonstração. ⇒. É consequência direta da fórmula (241) e da definição
2.6.14. ⇐. Sejam C e D matrizes invertı́veis tais que B = C T AD. Sejam V = Rm ,
W = Rn e A e B as bases canônicas. Seja f (v, w) := v T Aw. Então νAB (f ) = A.
Ademais, sejam A0 = A · C e B 0 = B · D. Pela fórmula (241), temos que νA0 B0 (f ) =
B. 
Por causa do teorema precedente, podemos dar a seguinte definição.
8.1. FUNÇÕES BILINEARES REAIS 281

Definição 8.1.12. O posto de uma função bilinear é o posto da sua matriz


representativa a respeito de duas bases quaisquer. O denotamos por rk(f ). ♦
Seja f : V × W → R uma função bilinear e sejam m = dim V e n = dim W .
Sejam A = {a1 , . . . , am } uma base de V e B = {b1 , . . . , bn } uma base de W . Seja A =
νAB (f ). Enfim, seja g : Rm × Rn → R definida por g(v, w) = v T Aw. Consideremos
os isomorfismos ϕ : V → Rm e ψ : W → Rn que mandam respetivamente A e B nas
bases canônicas. A fórmula (240) é equivalente à:
(242) f (v, w) = ϕ(v)T · A · ψ(w) = g(ϕ(v), ψ(w)).
Logo:
(243) LKer(f ) = ϕ−1 (LKer(g)) RKer(f ) = ψ −1 (RKer(g)).
Pelo lema 8.1.5, temos que:
dim LKer(f ) = m − rk(f ) dim RKer(f ) = n − rk(f ).
Em particular, se n = m então dim LKer(f ) = dim RKer(f ).
Exemplo 8.1.13. Achar a matriz representativa a respeito das bases A e B do
exercı́cio 8.1.10 usando as matrizes de mudança de base a partir das bases canônicas.
As matrizes de mudança de base são:
 
1 1 1  
1 −1
C= 1 1 0
  D= .
2 −1
1 −1 1
Logo B = C T AD. ♦
8.1.3. Formas bilineares e formas quadráticas. Consideremos uma função
bilinear f : V × W → Z. Na seção precedente nos restringimos ao caso Z = R.
Nessa seção supomos também que V = W .
Definição 8.1.14. Seja V um espaço vetorial real. Uma forma bilinear em V é
uma função bilinear ϕ : V × V → R. ♦
O produto escalar canônico é um exemplo de forma bilinear em Rn . Em geral,
as formas bilineares em Rn são da forma ϕ(v, w) = v T Aw, sendo A ∈ M (n; R).
Denotamos por Bil(V ) o conjunto das formas bilineares em V . Esse conjunto tem
uma natrual estrutura de espaço vetorial, pois Bil(V ) = Bil(V, V ).
Definição 8.1.15. Sejam ϕ uma forma bilinear em V e A uma base de V . A
matriz representativa de ϕ a respeito de A é definida por:
νA (ϕ) := νAA (ϕ).

Sejam A = {a1 , . . . , am } e A0 = {a01 , . . . , a0m } bases de V . Sejam A = [αij ] =
νA (ϕ) e B = [βij ] = νA0 (ϕ). Enfim, seja C = [γij ] = µ(A, A0 ). A fórmula (241) se
torna:
(244) B = C T AC.
282 8. FORMAS BILINEARES E HERMITIANAS

Definição 8.1.16. Duas matrizes A, B ∈ M (n; R) são ditas congruentes se, e


somente se, existir uma matriz invertı́vel C ∈ M (n; R) tal que B = C T AC. ♦

É imediato verificar que a congruência é uma relação de equivalência.2


Teorema 8.1.17. Sejam A, B ∈ M (m, n). Então existem:
• um espaço vetorial finitamente gerado V ;
• uma forma bilinear ϕ : V × V → R;
• duas bases A e A0 de V
tais que νA (ϕ) = A e νA0 (ϕ) = B se, e somente se, A e B são congruentes.
Vimos como, a partir do produto escalar, podemos definir a norma. Vamos
mostrar uma construção análoga em geral, considerando o quadrado da norma.
Definição 8.1.18. Seja V um espaço vetorial real. Uma forma quadrática em
V é uma função Φ : V → R tal que Φ(λv) = λ2 Φ(v) para todos v ∈ V e λ ∈ R. ♦
Seja Quad(V ) o conjunto das formas quadráticas em V . Esse conjunto tem
uma natural estrutura de espaço vetorial, definida da seguinte maneira para Φ, Ψ ∈
Quad(V ), v ∈ V e λ ∈ R:
• (Φ + Ψ)(v) := Φ(v) + Ψ(v);
• (λΦ)(v) := λΦ(v).
Há um homomorfismo natural:
(245) Q : Bil(V ) → Quad(V )
sendo Φ := Q(ϕ) definida por Φ(v) := ϕ(v, v). A função (245) não é nem injetora
nem sobrejetora. Para mostrar que não é injetora, consideremos as formas bilineares
ϕ1 , ϕ2 : R2 ×R2 → R definidas por ϕ1 ((x, y), (x0 , y 0 )) = xy 0 e ϕ2 ((x, y), (x0 , y 0 )) = x0 y.
Temos que Q(ϕ1 ) = Q(ϕ2 ) = Φ sendo Φ(x, y) = xy. Mostraremos na próxima seção
que Q se torna injetora quando restrita às formas simétricas e provaremos também
que não é sobrejetora.

8.2. Formas bilineares simétricas e antissimétricas


Definição 8.2.1. Uma forma bilinear ϕ ∈ Bil(V ) é dita simétrica se ϕ(v, w) =
ϕ(w, v) para todos v, w ∈ V . Denotamos por BilSim(V ) o conjunto das formas
bilineares simétricas em V . ♦
É imediato verificar que BilSim(V ) é um sub-espaço vetorial de Bil(V ).
Lema 8.2.2. Seja ϕ ∈ Bil(V ). Os seguintes fatos são equivalentes:
(1) ϕ é simétrica;
(2) existe uma base A de V tal que νA (ϕ) é uma matriz simétrica;
(3) para toda base A de V , a matriz νA (ϕ) é simétrica.
2Destacamos que, sem pedir que a matriz C seja invertı́vel, a relação não seria simétrica.
8.2. FORMAS BILINEARES SIMÉTRICAS E ANTISSIMÉTRICAS 283

Demonstração. (1) ⇒ (3) Seja νA (ϕ) = [αij ]. Por definição αij = ϕ(ai , aj ).
Sendo ϕ simétrica, αij = ϕ(aP i , aj ) = ϕ(aj , ai ) = αji . (3) ⇒ (2) Óbvio. (2) ⇒ (1) Se-
jam v = ni=1 λi ai e w = nj=1 µj aj . Seja νA (ϕ) = [αij ]. Temos que ϕ(v, w) =
P
Pn Pn Pn Pn
i,j=1 λi µj ϕ(ai , aj ) = i,j=1 λi µj αij = i,j=1 λi µj αji = i,j=1 λi µj ϕ(aj , ai ) =
ϕ(w, v). 
Em particular, as formas simétricas em Rn são da forma ϕ(v, w) = v T Aw, sendo
A simétrica.
Definição 8.2.3. Uma forma bilinear ϕ ∈ Bil(V ) é dita antissimétrica se
ϕ(v, w) = −ϕ(w, v) para todos v, w ∈ V . Denotamos por BilAS(V ) o conjunto
das formas bilineares antissimétricas em V . ♦
É imediato verificar que BilAS(V ) é um sub-espaço vetorial de Bil(V ). Destaca-
mos que, se ϕ ∈ BilAS(V ), temos que ϕ(v, v) = 0 para todo v ∈ V .
Lema 8.2.4. Seja ϕ ∈ BilAS(V ). Os seguintes fatos são equivalentes:
(1) ϕ é antissimétrica;
(2) existe uma base A de V tal que νA (ϕ) é uma matriz antissimétrica;
(3) para toda base A de V , a matriz νA (ϕ) é antissimétrica.
A prova é análoga à do lema 8.2.2. Existem duas projeções naturais:
πS : Bil(V ) → BilSim(V ) πA : Bil(V ) → BilAS(V )
(246)
ϕ 7→ ϕs ϕ 7→ ϕa
sendo:
1 1
 
ϕs (v, w) := 2
ϕ(v, w) + ϕ(w, v) ϕa (v, w) := 2
ϕ(v, w) − ϕ(w, v) .
É imediato provar que πS e πA são projeções. É claro que BilSim(V ) ∩ BilAS(V ) =
{0}, pois, se ϕ ∈ BilSim(V ) ∩ BilAS(V ), temos que ϕ(w, v) = −ϕ(w, v) para todos
w, v ∈ V , logo ϕ = 0. Ademais, πS + πA = idBil(V ) , portanto:
(247) Bil(V ) = BilSim(V ) ⊕ BilAS(V ).
Consideremos a função (245): a restrição dela a BilSim(V ) é injetora, enquanto a
restrição a BilAS(V ) é nula. De fato, seja Φ = Q(ϕ), sendo ϕ ∈ BilSim(V ). Então
Φ(v + w) = ϕ(v + w, v + w) = Φ(v) + 2ϕ(v, w) + Φ(w), portanto:
ϕ(v, w) = 12 Φ(v + w) − Φ(v) − Φ(w) .

(248)
A fórmula (248) generaliza (??) e mostra que, se uma forma quadrática Φ está
na imagem de Q|BilSim(V ) , a função bilinear ϕ de que é imagem é única, pois ϕ
é completamente determinada por Φ. Ademais, conforme a fórmula (247), seja
ϕ = ϕs + ϕa . Como Q(ϕa ) = 0 e Q é linear, temos que Q(ϕ) = Q(ϕs ), portanto,
dadas ϕ, ψ ∈ Bil(V ), temos que Q(ϕ) = Q(ψ) se, e somente se, ϕs = ψs , se, e
somente se, ϕ − ψ é antissimétrica.
Como Q(ϕ) = Q(ϕs ), temos que Im(Q) = Im(Q|BilSim(V ) ), portanto, para mos-
trarmos que Q não é sobrejetora, é suficiente achar uma forma quadrâtica que
não está na imagem de Q|BilSim(V ) . Dada uma forma quadrática Φ ∈ Quad(V ),
a forma Φ está na imagem de Q|BilSim(V ) se, e somente se, (248) é bilinear. Para
284 8. FORMAS BILINEARES E HERMITIANAS

achar um contra-exemplo, consideramos a forma quadrática em R2 definida por


2
(x, y) 7→ (x3 + y 3 ) 3 . Na verdade, a função Q está bem longe de ser sobrejetora, pois
o espaço Quad(V ) não é finitamente gerado. De fato, consideremos por exemplo Rn .
Seja S n−1 = {v ∈ Rn : kvk = 1} e seja f : S n−1 → R uma função qualquer. Então a
função Φ : Rn → R, definida por Φ(v) := kvk2 f (uv ) é uma forma quadrática. Ade-
mais, toda forma quadrática pode ser obtida desta maneira, pondo f (v) := Φ(v)
para todo v ∈ S n−1 . Isso mostra que Quad(V ) é isomorfo ao espaço vetorial das
funções de S n−1 a R, que não é finitamente gerado. Tudo isso é devido ao fato que a
definição de forma quadrática só controla o comportamento de Φ a respeito do pro-
duto externo, não a respeito da soma, portanto Φ não fica determinada conhecendo
seus valores sobre uma base. Isso deixa infinitos graus de liberdade para definir uma
forma quadrática.

8.3. Pull-back e push-forward


8.4. Produto interno
Já estudamos o produto interno canônico em Rn . Agora vamos ver que se trata
de um caso particular de uma noção mais geral.
Definição 8.4.1. Uma forma bilinear simétrica ϕ em V é dita definida positiva
se ϕ(v, v) ≥ 0 para todo v ∈ V e ϕ(v, v) = 0 se, e somente se, v = 0. ♦
Definição 8.4.2. Seja V um espaço vetorial. Um produto interno ou produto
escalar em V é uma forma bilinear simétrica e definida positiva. ♦
Quando ϕ é um produto interno, a denotamos por h·, ·i. Vamos começar por
V = Rn e mostremos quais são os possı́veis produtos internos. Lembramos que, pelo
teorema espectral real, uma matriz simétrica tem autovalores todos reais.
Definição 8.4.3. Uma matriz simétrica é dita definida positiva se tiver auto-
valores todos positivos. ♦
Teorema 8.4.4. A forma bilinear simétrica em Rn , definida por ϕ(v, w) =
v T Aw, é definida positiva se, e somente se, A é uma matriz definida positiva.
Demonstração. ⇒) Seja por absurdo v um autovetor de A associado a um
autovalor λ ≤ 0. Então ϕ(v, v) = λv T v = λkvk2 ≤ 0. Como v 6= 0, ϕ não é definida
positiva. ⇐) Seja A = {a1 , . . . , an } uma base ortonormal (a respeito do produto
escalar canônico de Rn ) formada por autovetores de A. Sejam λ1 , . . . , λn > 0 os
autovalores correspondentes e consideremosPn um
Pvetor v = µ 1 a1 + · · · P
+ µn an . Temos
que ϕ(v, v) = i=1 j=1 µi µj ai Aaj = i=1 j=1 µi µj λj hai , aj i = ni=1 µ2i λi ≥ 0,
Pn Pn T n

sendo igual a 0 se, e somente se, µi = 0 para todo i, se, e somente se, v = 0. 
É claro que para A = In obtemos o produto escalar canônico. Dado um espaço
vetorial genérico V , podemos considerar um isomorfismo ϕ : V → Rn e o pull-back
de um produto escalar em Rn . Isso mostra que todo espaço vetorial tem um (na
verdade, infinitos) produto interno. A matriz representativa a respeito de uma base
qualquer é simétrica e definida positiva.
8.4. PRODUTO INTERNO 285

Exemplo 8.4.5. Verificar que a forma bilinear h(x, y, z), (x0 , y 0 , z 0 )i := xx0 −
xy − x0 y + 2yy 0 + zz 0 é um produto escalar em R3 .
0

A matriz representativa a respeito da base canônica é:


 
1 −1 0
A = −1 2 0 .
0 0 1
Trata-se obviamente de uma matriz simétrica, portanto temos de verificar que seja
definida positiva. Podemos calcular o polinômio caracterı́stico aplicando a regra de
Laplace à terceira coluna, obtendo√χA (λ) = (1−λ)(λ2 −3λ+1). Logo, os autovalores
√ √
são λ1 = 1, λ2 = 3+2 5 e λ3 = 3−2 5 . Obviamente λ1 , λ2 > 0. Ademais 3 − 5 > 0

se, e somente se, 3 > 5 se, e somente se, 9 > 5, logo λ3 > 0. Isso mostra que A é
definida positiva. ♦
Dado um produto interno em V , definimos, para todo v ∈ V :
p
(249) kvk := hv, vi.
Qualquer seja o produto escalar, a norma assim definida satisfaz as propriedades
enunciadas no lema 4.1.2, com a mesma prova. Em geral, todas as propriedades
do produto interno canônico, que foram provadas só usando as três proprieades
fundamentais, valem para qualquer produto interno. Portanto valem:
• a desigualdade de Cauchy-Schwartz;
• a definição (81) dos ângulos entre dois vetores não nulos e a definição ??
de ortogonalidade;
• o lema 4.2.17;
• a prova (82) da desigualdade triangular e a desigualdade (74);
• a fórmula (??) e o teorema de Pitágoras (87).
Exemplo 8.4.6. Considerando o produto escalar do exercı́cio 8.4.5, calcule os
ângulos entre os vetores e1 = (1, 0, 0) e e2 = (0, 1, 0).
Temos que he1 , e2 i = eT1 Ae2 = −1. Ademais, ke1 k2 = eT1 Ae1 = 1 e ke2 k2 =
e2 Ae2 = 2, portanto cos θ = − √12 , logo θ = ± 34 π.
T

Exemplo 8.4.7. Considerando o produto escalar do exercı́cio 8.4.5, achar a
equação do plano passante por (1, 2, 1) e perpendicular ao vetor (1, 0, −1).
A equação do plano é dada por h(x, y, z) − (1, 2, 1), (1, 0, −1)i = 0, ou seja:
  
  1 −1 0 1
x − 1 y − 2 z − 1 −1 2 0  0  = 0.
0 0 1 −1
Obtemos a equação x − y − z + 2 = 0. ♦
A equação (83) é um caso particular da matriz representativa de uma forma
bilinear, nesse caso um produto escalar. Analogamente, a fórmula (84) é um caso
particular da (240).
As definições ?? e ?? e o lema 4.3.5 ficam válidos sem variações. O mesmo vale
para a definição de base ortonormal. As fórmulas equivalentes (90) e (92) continuam
286 8. FORMAS BILINEARES E HERMITIANAS

a definir a projeção de um vetor ao longo de outro e o método de ortonormalização


de Grahm-Schmidt vale da mesma maneira.
Exemplo 8.4.8. Achar a projeção de (1, 1, 1) ao longo de (1, 0, 2) em R3 a
respeito do produto escalar do exercı́cio 8.4.5.
Aplicando a fórmula (92), a projeção é dada por (1,1,1)•(1,0,2) (1, 0, 2) = 25 , 0, 45 .

(1,0,2)•(1,0,2)

Exemplo 8.4.9. Achar uma base oronormal de R3 a respeito do produto escalar
h(x, y, z), (x0 , y 0 , z 0 )i = 2xx0 + 3xz 0 + 2yy 0 + 3zx0 + 5zz 0 .
Antes de tudo verifiquemos que se trata efetivamente de um produto escalar. A
matriz representativa a respeito da base canônica é:
 
2 0 3
A = 0 4 0 .
3 0 5

É uma matriz simétrica, portanto devemos verificar que seja definida positiva. Um
autovalor é 4. Ademais, considerando a submatriz A0 obtida tirando a segunda linha
e a segunda coluna, temos que det(A0 ) = 1 > 0 e Tr(A0 ) = 7 > 0, logo também os
dois demais autovalores são positivos.
Para acharmos uma base ortonormal de R3 , partimos da base canônica e apli-
camos o método de Grahm-Schmidt. Temos que ke1 k2 = eT1 Ae1 = 2, portanto
a1 = √12 e1 = √12 , 0, 0 . Ademais, he2 , a1 i = √12 eT2 Ae1 = 0, portanto a02 = e2 .


Como ke2 k2 = eT2 Ae2 = 4, temos a2 = 0, 12 , 0 . Enfim, he3 , a1 i = √12 eT3 Ae1 = √32


e he3 , a2 i = 12 eT3 Ae2 = 0, logo a03 = e3 − √32 a1 = − 32 , 0, 1 . Portanto ka03 k2 =




(a03 )T Aa03 = 12 , logo a3 = − √32 , 0, √22 . Afinal, uma base ortonormal é A =



 1
√ , 0, 0 , 0, 1 , 0 , − √3 , 0, √2
  
2 2 2 2
. ♦

As fórmulas (96) e (89) ficam inalteradas. O mesmo vale, em um espaço vetorial


genérico V , para a fórmula (98) e o lema 4.3.19.
A definição de complemento ortogonal também vale sem variações, assim como
os lemas 4.3.27 e ?? e os relativos corolários.
Exemplo 8.4.10. A respeito do produto escalar do exercı́cio 8.4.9, calcular o
complemento ortogonal de V = h(1, 0, −1), (2, −1, −1)i em R3 .
Seja v = (x, y, z) ∈ R3 o vetor genérico. Temos que v ∈ V ⊥ se, e somente se,
(x, y, z)T A(1, 0, −1) = 0 e (x, y, z)T A(2, −1, −1) = 0, portanto obtemos o sistema
linear:

x + 2z = 0
x − 4y + z = 0.
As soluções são dadas por x = 8t, y = t e z = −4t, portanto V ⊥ = h(8, 1, −4)i. ♦
Também a definição 4.3.32 vale sem variações, em um espaço vetorial genérico
V com um produto interno, assim como a fórmula (104).
8.4. PRODUTO INTERNO 287

Exemplo 8.4.11. Seja V = M (2; R) consideremos o seguinte produto escalar:


   0 0
a b a b
h , 0 0 i = 3aa0 − 2ab0 − 2a0 b + 3ad0 + 3a0 d + 6bb0
c d c d
+ 2bc0 + 2b0 c − 2bd0 − 2b0 d + 4cc0 + 3cd0 + 3d0 c + 6dd0 .
     
0 0 1 0 0 1
Achar a projeção de no sub-espaço h , i.
1 0 0 0 0 0
 
4 a b
Aplicando o isomorfismo entre V e R que manda a matriz no vetor
c d
(a, b, c, d), obtemos o produto escalar em R4 representado pela matriz:
 
3 −2 0 3
−2 6 2 −2
A= 0
.
2 4 3
3 −2 3 6
A matriz A é simétrica. A conta para achar os autovalores não é breve. O leitor
pode conferir que A = C T ∆C, sendo:
   
1 0 0 1 1 0 0 0
1 −1 0 1 0 2 0 0
C= 0 2 1 0
 ∆ = 0 0 1 0 .
 
0 0 1 1 0 0 0 3
Portanto A, sendo congruente à matriz definida positiva ∆, é definida positiva.
Agora temos que achar a projeção de e3 em W = he1 , e2 i.
Método I: Temos que ortonormalizar a base de W com o método de Grahm-
Schmidt:
a1 = √13 , 0, 0, 0

ke1 k2 = eT1 Ae1 = 3
he1 , a1 i = √13 eT1 Ae2 = − √23 a02 = e2 + √23 e1 = 32 , 1, 0, 0


ka01 k2 = (a02 )T Aa02 = 14 a2 = √242 , √342 , 0, 0 .



3

Aplicando a fórmula (104):


√1 , 0, 0, 0 √6 √2 , √3 , 0, 0 2 3
  
πW (v) = 0 3
+ 42 42 42
= , , 0, 0
7 7
.
Método II: Calculemos W ⊥ . Temos que v ∈ W ⊥ se, e somente se, v T Ae1 = 0 e
T
v Ae2 = 0, portanto obtemos o sistema linear:

3x − 2y + 3w = 0
−2x + 6y + 2z − 2w = 0.
Obtemos que W ⊥ = h(2, 3, −7, 0), (−1, 0, 0, 1)i. Logo, temos que calcular os coefici-
entes da seguinte combinação linear:
(0, 0, 1, 0) = α(1, 0, 0, 0) + β(0, 1, 0, 0) + γ(2, 3, −7, 0) + δ(−1, 0, 0, 1).
Resolvendo, obtemos α = 27 , β = 73 , γ = − 71 e δ = 0. Logo:
πW (v) = 72 (1, 0, 0, 0) + 73 (0, 1, 0, 0) = 2 3

, , 0, 0
7 7
.
288 8. FORMAS BILINEARES E HERMITIANAS


A fórmula (??) vale sem variações, assim como a definição de função linear
ortogonal, entre dois espaços vetoriais genéricos V e W , a observação 4.4.2, o lema
4.4.3 e o corolário 4.4.4.
A respeito da observação 4.4.5, a conta era muito simples pois a base canônica é
ortonormal a respeito do produto escalar canônico. Vamos ver o que acontece com
um produto escalar genérico. Seja f : Rn → Rm , f (v) = Av. Consideremos os
produtos escalares hv, wi = v T Xw em Rn e hv, wi = v T Y w em Rm . A função f é
ortogonal se, e somente se:
hAv 1 , Av 2 i = hv 1 , v 2 i ∀v 1 , v 2 ∈ Rn
v T1 AT Y Av 2 = v T1 Xv 2 ∀v 1 , v 2 ∈ Rn
AT Y A = X.

É claro que para X = In e Y = Im obtemos a mesma condição da observação 4.4.5.


Quando n = m e X = Y , obtemos AT XA = X.
Definição 8.4.12. Seja X ∈ M (n; R) uma matriz simétrica definida positiva.
Uma matriz A ∈ M (n; R) é dita X-ortogonal se AT XA = X. ♦
Uma matriz X-ortogonal representa, a respeito da base canônica de Rn , um au-
tomorfismo que é ortogonal a respeito do produto escalar representado, de novo a
respeito da base canônica, por X. Isso pode ser também lido de um ponto de vista
passivo. Consideremos o produto escalar canônico em Rn e uma base A não necessa-
riamente ortonormal. O produto é representado, a respeito de A, por uma matriz X.
Um automorfismo ortogonal, a respeito do produto escalar canônico, é representado
a respeito de A por uma matriz X-ortogonal. Quando a base é ortonormal, como já
sabemos, o automorfismo é representado por uma matriz ortogonal. Isso, portanto,
generaliza o conceito de matriz ortogonal a uma base qualquer, não necessariamente
ortonormal. Observamos que det(A) = ±1, independentemente de X.
Exemplo 8.4.13. Determinar as rotações em R2 a respeito do produto escalar
h(x, y), (x0 , y 0 )i = 2xx0 + xy 0 + x0 y + yy 0 .
Achemos uma base ortonormal de R2 . A matriz representativa do produto escalar
é:  
2 1
X= .
1 1
Partindo da base canônica, temos que ke1 k2 = eT1 Xe1 = 2, logo a1 = √12 , 0 .


Ademais, he2 , a1 i = √12 eT2 Xe1 = 1, portanto a02 = e2 − √12 √12 , 0 = − 12 , 1 . Temos
 

que ka02 k2 = a02 Xa02 = 12 , logo a2 = − √12 , √22 . Obtemos a base ortonormal A =

 1 
√ , 0 , − √1 , √2

2 2 2
. Portanto, a respeito de A, uma rotação é representada por
uma matriz ortogonal especial, ou seja, da forma:
 
cos θ − sin θ
Rθ = .
sin θ cos θ
8.4. PRODUTO INTERNO 289

Seja C a base canônica e seja C −1 = µ(C, A). As colunas de C −1 são os elementos


de A. Seja A a matriz representativa de uma rotação a respeito de C. Obtemos:
 
−1 cos θ − sin θ − sin θ
A = C Rθ C = .
2 sin θ sin θ + cos θ
O leitor pode verificar que AT XA = X e det(A) = 1. Afinal, a genérica rotação é a
função linear:    
x x cos θ − x sin θ − y sin θ
f = .
y 2x sin θ + y sin θ + y cos θ

O lema 4.5.1 vale em um epaço vetorial genérico, portanto podemos definir o
adjunto de um endomorfismo com a mesma definição 4.5.2, a respeito de um produto
escalar genérico em um espaço V . O lema 4.5.3 vale sem variações.
Exemplo 8.4.14. Seja V o espaço dos polinômios de segundo grau com o produto
escalar ha0 + a1 x + a2 x2 , b0 + b1 x + b2 x2 i = a0 b0 + a0 b2 + a2 b0 + a1 b1 + 3a2 b2 . Ademais,
consideremos em R2 o produto escalar h(x, y), (x0 , y 0 )i = xx0 +2yy 0 . Seja f : R2 → V
definida por f (a, b) = a + ax + bx2 . Calcular f ∗.
Uma base ortonormal de R é A = (1, 0), (0, √12 ) . A respeito de V , aplicando
2


o isomorfismo com R3 que manda a base {1, x, x2 } na base canônica, obtemos o


produto escalar representado pela matriz:
 
1 0 1
X = 0 1 0 .
1 0 3
Partindo da base canônica, obtemos que (1, 0, 0) e (0, 1, 0) são unitários e ortogonais.
Ademais, he3 , e1 i = 1 e he3 , e2 i = 0, logo a03 = 0 2
 e3 − e1 = (−1, 0, 1). Como ka3 k =
0 T 0 1 1
(a3 ) Xa3 = 2, temos que a3 = − √2 , 0, √2 . Afinal obtemos a base ortonormal
B = (1, 0, 0), (0, 1, 0), − √12 , 0, √12 .
 

Temos que f (1, 0) = (1, 1, 0) = (1, 0, 0) + (0, 1, 0) e f (0, √12 ) = (0, 0, √12 ) =
√1 (1, 0, 0) + (− √1 , 0, √1 , portanto:

2 2 2

1 √12
 

µAB (f ) = 1 0  .
0 1
Sendo A e B ortonormais,
 ∗ µBA (f ∗ ) = µAB (f )T , portanto f ∗ (1, 0, 0) = (1, 0) +
1 1 ∗
= 1, 2 , f (0, 1, 0) = (1, 0) e f − √2 , 0, √2 = 0, √12 . Isso implica
1 1 1

√ 0, √
2 2 √
que f ∗ (0, 0, 1) = f ∗ (1, 0, 0) + 2f ∗ − √12 , 0, √12 = 1, 32 . Logo:
 

f ∗ (a + bx + cx2 ) = a + b + c, 12 a + 32 c .


Verifiquemos que é realmente a adjunta. Temos que:


  
 1 0 1 x0
hf (x, y), (x0 , y 0 , z 0 )i = x x y 0 1 0 y 0  = xx0 + xz 0 + xy 0 + yx0 + 3yz 0

1 0 3 z0
290 8. FORMAS BILINEARES E HERMITIANAS

e:
 1 0 x0 + y 0 + z 0
  
∗ 0 0 0
= xx0 + xz 0 + xy 0 + yx0 + 3yz 0 .

h(x, y), f (x , y , z )i = x y 1 0 3 0
0 2 2
x + 2
z

Também a definição de endomorfismo simétrico ou auto-adjunto, assim como o
lema 4.5.6, ficam válidas. A respeito da observação 4.5.7, de novo se baseava no fato
que a base canônica de Rn é ortonormal para o produto canônico. Em geral, para
um produto escalar representado por X, temos:
hAv 1 , v 2 i = hv 1 , Av 2 i ∀v 1 , v 2 ∈ Rn
v T1 AT Xv 2 = v T1 XAv 2 ∀v 1 , v 2 ∈ Rn
AT X = XA
(XA)T = XA.
Isso mostra que XA tem que ser simétrica. O mesmo vale para um produto qualquer
a respeito de uma base qualquer, naõ necessariamente ortonormal.
A respeito da orientação, vale o que já vimos, pois não depende do produto
escalar. Portanto, a definição de rotação vale sem variações.
DOIS PRODUTOS ESCALARES NO MESMO ESPAÇO TÊM UMA BASE
ORTOGONAL COMUM, EM Rn É A BASE ORTONORMAL DE AUTOVETO-
RES DA MATRIZ REPRESENTATIVA.
PROD ESCALAR ÚNICO A MENOS DI PULL-BACK POR AUTOMOR-
FISMO

8.5. Normas e distâncias


Já vimos que, a partir de qualquer produto escalar, podemos definir a norma
correspondente, que satisfaz as propriedaes enunciadas no lema 4.1.2. Como fizemos
para o produto escalar, podemos definir uma norma a partir dessas propriedades.
Definição 8.5.1. Seja V um espaço vetorial real. Uma norma em V é uma
função k · k : V → R tal que:
(1) kvk ≥ 0 para todo v ∈ V e kvk = 0 se, e somente se, v = 0;
(2) kλvk = |λ|kvk para todos v ∈ V e λ ∈ R;
(3) kv + wk ≤ kvk + kwk para todos v, w ∈ V (desigualdade triangular ).

A desigualdade (74) continua a valer com a mesma prova. Também fica válida
a definição de distância (??), a qual satisfaz as propriedades enunciadas no lema
4.1.12.
Por causa da fórmula (??), dois produtos escalares diferentes induzem normas
diferentes, portanto já temos infinitas normas diferentes em um espaço vetorial.
Todavia, em geral uma norma não é induzida p por um produto escalar. Por exemplo,
n
podemos considerar em R a norma kvk = |v1 |3 + · · · + |vn |3 .
3
8.6. CLASSIFICAÇÃO DAS FORMAS BILINEARES SIMÉTRICAS 291

8.6. Classificação das formas bilineares simétricas


Seja ϕ uma forma bilinear simétrica. Pela definição 8.1.3, é claro que LKer(ϕ) =
RKer(ϕ). Do ponto de vista matricial, o corolário 8.1.6 implica que, quando A for
simétrica, os dois núcleos coincidem. Portanto, chamamos de núcleo de ϕ, denotado
por Ker(ϕ), o núcleo direito e esquerdo.
Definição 8.6.1. Uma forma bilinear simétrica ϕ é dita não degenerada se
Ker(ϕ) = {0}. Em caso contrário, é dita degenerada. ♦
Lema 8.6.2. Uma forma bilinear simétrica é não degenerada se, e somente se,
sua matriz representativa a respeito de uma base qualquer é invertı́vel.
Demonstração. Segue imediatamente das fórmulas (243) e do lema 8.1.5. 
Definição 8.6.3. Uma forma bilinear simétrica ϕ em V é dita:
• semi-definida positiva (respetivamente, semi-definida negativa) se, e so-
mente se, ϕ(v, v) ≥ 0 (respetivamente, ϕ(v, v) ≤ 0) para todo v ∈ V ;
• definida positiva (respetivamente, definida negativa) se, e somente se, for
semi-definida positiva (respetivamente, semi-definida negativa) e ϕ(v, v) =
0 se, e somente se, v = 0;
• indefinida se não for semi-definida positiva nem semi-definida negativa.

Lema 8.6.4. Uma forma bilinear simétrica definida positiva ou definida negativa
é não degenerada.
Demonstração. Seja v ∈ Ker(ϕ). Então, em particular, ϕ(v, v) = 0, logo
v = 0. 
Mostraremos em seguida que uma forma bilinear semi-definita positiva ou ne-
gativa, se for não degenerada, é definida positiva ou negativa. Todavia, dada
uma forma indefinida não degenerada, pode acontecer (na verdade, mostraremos
que acontece sempre) que exista um vetor v não nulo tal que ϕ(v, v) = 0. Por
exemplo, em R2 a forma ϕ((x, y), (x0 , y 0 )) = xx0 − yy 0 é não degenerada, porém
ϕ((1, 1), (1, 1)) = 0.
Vimos que, em um sub-espaço vetorial de Rn , existe sempre uma base ortonor-
mal. Vamos agora generalizar este conceito a uma forma biliner simétrica genérica.
Definição 8.6.5. Seja ϕ uma forma bilinear simétrica em V . Uma base A =
{a1 , . . . , an } de V é dita ϕ-conjugada se:
• ϕ(ai , aj ) = 0 se i 6= j;
• se ϕ(ai , ai ) 6= 0, então |ϕ(ai , ai )| = 1.

Teorema 8.6.6 (Teorema de Sylvester). Para toda forma bilinear simétrica ϕ
existe uma base ϕ-conjugada.
Demonstração. Comecemos supondo V = Rn . Nesse caso ϕ(v, w) = v T Aw,
sendo A ∈ M (n; R) simétrica. Aplicando o teorema espectral real, seja A =
292 8. FORMAS BILINEARES E HERMITIANAS

{a1 , . . . , an } uma base ortonormal (a respeito do produto escalar canônico) de auto-


vetores de A. Para i 6= j, temos que ϕ(ai , aj ) = aTi Aaj = λj hai , aj i = 0. Suponha-
mos, a menos da ordem, que λ1 , . . . , λn−r 6= 0 e λn−r+1 , . . . , λn = 0. Pomos:
ai
a0i := √ , i ≤ n − r; a0i := ai , i > n − r.
|ϕ(ai ,ai )|

É fácil verificar que a base A0 = {a01 , . . . , a0n } é ϕ-conjugada.


Seja agora V genérico e seja F : V → Rn um isomorfismo. Consideremos a
forma bilinear simétrica ψ em Rn definida por ψ(v, w) := ϕ(F −1 (v), F −1 (w)). Já
provamos que existe uma base ψ-conjugada A0 = {a01 , . . . , a0n }. Pelas fórmulas (240)
e (242), a base A := {F −1 (a01 ), . . . , F −1 (a0n )} é ϕ-conjugada. 

Seja ϕ uma forma bilinear simétrica em V e seja A = {a1 , . . . , an } uma base


ϕ-conjugada. A menos da ordem, podemos supor que:

 1 1≤i≤p
ϕ(ai , ai ) = −1 p+1≤i≤p+q
 0 p + q + 1 ≤ i ≤ n.
Obtemos um par de números reais (p, q) tal que:
 
Ip 0 0
(250) νA (ϕ) = 0 −Iq
 0 .
0 0 0
Agora vamos mostrar que esse par não depende da base escolhida e caracteriza ϕ.
Pelo teorema espectral real, o número de autovalores reais de uma matriz simétrica,
cada um contado com sua multiplicidade, é igual à dimensão da matriz.
Definição 8.6.7. Seja A ∈ M (n; R) uma matriz simétrica. A assinatura de A
é o par de números naturais (p, q), onde p é o número de autovalores positivos e q o
número de autovalores negativos. ♦
Observamos que a dimensão do kernel da aplicação linear v 7→ Av é n − p − q.
Teorema 8.6.8. Seja ϕ uma forma bilinear simétrica em V . Todas as matrizes
representativas de ϕ têm a mesma assinatura (p, q). Ademais, a matriz respresen-
tativa a respeito de qualquer base ϕ-conjugada, a menos da ordem dos elementos, é
igual à (250).
Demonstração. 
Corolário 8.6.9. Duas matrizes simétricas A, B ∈ M (n; R) são congruentes
se, e somente se, têm a mesma assinatura.
Pelo teorema 8.6.8 podemos dar a seguinte definição.
Definição 8.6.10. A assinatura de uma forma bilinear simétrica é a assinatura
de uma sua matriz representativa. ♦
8.9. FORMAS SESQUILINEARES 293

8.7. Classificação das formas bilineares antissimétricas


8.8. Formas bilineares complexas
8.9. Formas sesquilineares
CAPı́TULO 9

Dualidade e produto tensor

Vamos introduzir as noções de espaço vetorial dual e de produto tensor de espaços


vetoriais. Trata-se de conceitos usados muito frequentemente em todas as áreas da
matemática. Em particular, estas noções constituem o ponto de partida natural
para introduzir a álgebra multi-linear, que não será discutida neste curso, mas que
constitui um tópico essencial em diversos contextos.

9.1. Dualidade
Dados dois K-espaços vetoriais V e W , vimos que o conjunto das funções lineares
de V a W possui uma estrutura natural de K-espaço vetorial, definida por (f +
g)(v) := f (v) + g(v) e (λf )(v) := λ · f (v). Isso vale em particular para W = K,
portanto podemos dar a seguinte definição.
Definição 9.1.1. Seja V um K-espaço vetorial. O espaço vetorial dual de V é
o seguinte K-espaço vetorial:
V ∗ := Hom(V, K).
Os elementos de V ∗ são ditos funcionais lineares. ♦
Como dim Hom(V, W ) = dim V · dim W , em particular dim V ∗ = dim V .
Definição 9.1.2. Seja A = {a1 , . . . , an } uma base de V . A base dual de A é a
famı́lia de funcionais lineares A∗ := {a∗1 , . . . , a∗n } definida por a∗i (aj ) = δij . ♦
Isso significa que o funcional a∗i é a única função linear de V a K que vale 1 em
ai e 0 nos demais elementos da base A, logo:
(251) a∗i (λ1 a1 + · · · + λn an ) = λi ,
ou seja, o funcional a∗i seleciona a i-ésima coordenada de um vetor em relação à base
A. Obviamente o nome “base dual” é motivado pelo seguinte lema.
Lema 9.1.3. Se A for uma base de V , então A∗ é uma base de V ∗ .
Demonstração. Seja ϕ = λ1 a∗1 + · · · + λn a∗n ∈ V ∗ . Como a∗i (aj ) = δij por
definição, temos que ϕ(ai ) = λi , portanto, se ϕ = 0, então λi = 0 para todo i.
Isso demonstra que A∗ é independente. Como dim V ∗ = dim V , isso é suficiente,
mas vamos demonstrar também que A∗ gera V ∗ . Suponhamos que ϕ ∈ V ∗ seja um
elemento genérico. Seja λi := ϕ(ai ). Como também (λ1 a∗1 + · · · + λn a∗n )(ai ) = λi e
A é uma base, temos que ϕ = λ1 a∗1 + · · · + λn a∗n , logo todo elemento de V ∗ é uma
combinação linear de A∗ . 
295
296 9. DUALIDADE E PRODUTO TENSOR

Observação 9.1.4. Por causa do lema precedente, fixada uma base A de V ,


fica definido o isomorfismo ϕA : V → V ∗ , que manda A em A∗ . Contudo, este
isomorfismo depende da base escolhida (isso significa que não é canônico). ♦

9.1.1. Transposição. Por enquanto vimos como a dualidade atua em um espaço


vetorial, associando-lhe o espaço dual. Podemos estender a ação também às funções
lineares da seguinte maneira. Consideremos uma função linear f : V → W . Dado
um funcional linear ϕ : W → K, podemos considerar a composição ϕ ◦ f : V → K,
que é também um funcional linear.
ϕ
WO /
>K
f
ϕ◦f
V
Por isso damos a seguinte definição.

Definição 9.1.5. Seja f : V → W uma função K-linear. A função transposta


f : W ∗ → V ∗ é definida por f T (ϕ) := ϕ ◦ f .
T

Observamos que o domı́nio e o contradomı́nio ficam invertidos. É imediato veri-


ficar que f ∗ é linear.

Observação 9.1.6. Para o leitor que conheça a linguagem das categorias, seja
VectK a categoria dos espaços vetoriais sobre K. Acabamos de definir um functor
contravariante ∗ : Vectop
K → VectK , cuja ação entre os objetos é definida por V 7→ V

T
e cuja ação entre os morfismos é definida por f 7→ f . ♦

Lema 9.1.7. Sejam A uma base de V e B uma base de W . Temos:

µB∗ A∗ (f ∗ ) = (µAB (f ))T .

Demonstração. Sejam A = {a1 , . . . , an }, B = {b1 , . . . , bm } e µAB (f ) = [αij ].


Por definição de matriz representativa temos que f (ai ) = αj i bj . Ademais:

(f T (b∗i ))(ak ) = (b∗i ◦ f )(ak ) = b∗i (αhk bh ) = αhk δih = αi k


((αT )j i a∗j )(ak ) = (αT )j i δjk = αi k ,

portanto f T (b∗i ) = (αT )j i a∗j . 

O lema precedente pode ser formulado afirmando que o seguinte diagrama co-
muta:
Hom(V, W )
T / Hom(W ∗ , V ∗ )
µAB µB∗ A∗
 
M (m, n; K)
T / M (n, m; K).
9.1. DUALIDADE 297

9.1.2. Bidualidade. Vimos que V e V ∗ são isomorfos mas não canonicamente.


Vamos mostrar que, pelo contrário, o bidual V ∗∗ (ou seja, o dual do dual) é canoni-
camente isomorfo a V . Um elemento de V ∗∗ é um funcional linear de V ∗ a K. Dado
um vetor v ∈ V , fica definido o functional que associa a ϕ ∈ V ∗ o escalar ϕ(v) ∈ K,
portanto obtemos a seguinte função:
'
Φ : V −→ V ∗∗
(252)
v 7→ (ϕ 7→ ϕ(v)).
Lema 9.1.8. A função (252) é um isomorfismo canônico.
Demonstração. É imediato verificar que é linear. Como dim V = dim V ∗∗ , é
suficiente verificar que é injetora. Seja v 6= 0. Seja A = {v, a2 , . . . , an } uma base
de V e consideremos o funcional ϕ ∈ V ∗ tal que ϕ(v) = 1 e ϕ(ai ) = 0. Temos que
(Φ(v))(ϕ) = ϕ(v) 6= 0, logo Φ(v) 6= 0. Isso demonstra que Ker(Φ) = {0}. 
É claro que, iterando o isomorfismo, obtemos que V ∗∗∗ ' V ∗ e assim em diante.
Em geral, uma potência dual par de V é canonicamente isomorfa a V e uma potência
dual ı́mpar de V é canonicamente isomorfa a V ∗ .
Observação 9.1.9. Daqui em diante sub-entenderemos o isomorfismo (252) e
identificaremos V com V ∗∗ , portanto um elemento de V será pensado indiferente-
mente como um vetor ou como um funcional de V ∗ . ♦
Vamos agora considerar o comportamento do isomorfismo (252) em relação às
funções lineares. Seja f : V → W . Ficam definidas a transposta f T : W T → V T e a
bi-transposta f T T : V → W .
Lema 9.1.10. Dada uma função linear f : V → W , temos que f T T = f .
Demonstração. Devemos demonstrar que f T T (v) = f (v) para todo v ∈ V ,
isto é, explicitando o isomorfismo (252), f T T (Φ(v)) = Φ(f (v)). Isso equivale ao fato
que f T T ◦ Φ = Φ ◦ f , ou seja, à comutatividade do seguinte diagrama:

V
Φ / V ∗∗
f fTT
 
W
Φ / W ∗∗ .
De fato, para todo ψ ∈ W ∗ , temos que:
f T T (Φ(v)) (ψ) = (Φ(v) ◦ f T )(ψ) = Φ(v)(f T (ψ))


= Φ(v)(ψ ◦ f ) = (ψ ◦ f )(v) = ψ(f (v)) = (Φ(f (v))(ψ).


Isso demonstra que f T T (Φ(v)) = Φ(f (v)). 
Observação 9.1.11. Para o leitor que conheça a linguagem das categorias, aca-
bamos de demonstrar que o functor bi-dualidade ∗∗ : VectK → VectK é isomorfo ao
functor identidade. Isso traduz rigorosamente o fato que (252) seja um isomorfismo
canônico. ♦
298 9. DUALIDADE E PRODUTO TENSOR

9.1.3. Anulador. Vamos mostrar que a dualidade induz uma bijeção entre os
sub-espaços vetoriais de V e os sub-espaços vetoriais de V ∗ .
Definição 9.1.12. Seja A ⊂ V um subconjunto. O anulador de A é o sub-
espaço vetorial de V ∗ formado pelos funcionais que se anulam em A, ou seja:
An(A) := {ϕ ∈ V ∗ : ϕ(v) = 0 ∀v ∈ A}. ♦

Definição 9.1.13. Seja à ⊂ V ∗ um subconjunto. O conjunto de zeros de à é


o sub-espaço vetorial de V formado pelos vetores nos quais se anula todo elemento
de Ã, ou seja:
Zero(Ã) := {v ∈ V : ϕ(v) = 0 ∀ϕ ∈ Ã}. ♦

É imediato verificar que An(A) é um sub-espaço vetorial de V ∗ e que Zero(Ã) é


um sub-espaço vetorial de V .
Lema 9.1.14. Seja V um espaço vetorial. Para todos subconjuntos A, B ⊂ V e
Ã, B̃ ⊂ V ∗ :
(1) A ⊂ B ⇒ An(B) ⊂ An(A);
(2) Ã ⊂ B̃ ⇒ Zero(B̃) ⊂ Zero(Ã);
(3) An(A) = AnhAi;
(4) Zero(Ã) = ZerohÃi;
(5) Zero(An(A)) = hAi;
(6) An(Zero(Ã)) = hÃi.
Demonstração. (1) Se ϕ|B = 0, em particular ϕ|A = 0. (2) Se ϕ(v) = 0 para
todo ϕ ∈ B̃, em particular ϕ(v) = 0 para todo ϕ ∈ Ã. (3) Seja v = λ1 v 1 +· · · +λk v k ,
sendo v i ∈ A, e seja ϕ ∈ An(A). Então ϕ(v) = λ1 0 + · · · + λk 0 = 0, portanto
An(A) ⊂ AnhAi. A inclusão oposta segue do item 1. (4) Seja ϕ = λ1 ϕ1 + · · · + λk ϕk ,
sendo ϕi ∈ Ã, e seja v ∈ Zero(Ã). Então ϕ(v) = λ1 0 + · · · + λk 0 = 0, portanto
Zero(Ã) ⊂ ZerohÃi. A inclusão oposta segue do item 2. (5) Seja W = hAi. Pelo item
3 podemos demonstrar que Zero(An(W )) = W . Sejam w ∈ W e ϕ ∈ An(W ). Por
definição temos que ϕ(w) = 0, portanto W ⊂ Zero(An(W )). Seja v ∈ V \ W . Seja
A0 = {a1 , . . . , ak } uma base de W . Como v ∈ / W , a famı́lia A0 ∪ {v} é independente,
portanto pode ser completada a uma base A = {a1 , . . . , ak , v, ak+2 , . . . , an } de V .
Seja ϕ ∈ V ∗ definido por ϕ(v) = 1 e ϕ(ai ) = 0. Temos que ϕ ∈ An(W ), pois se anula
em uma base de W , e ϕ(v) 6= 0, logo v ∈ / Zero(An(W )). (6) Seja W̃ = hÃi. Pelo item
4 podemos demonstrar que Zero(An(W̃ )) = W̃ . Sejam w ∈ W e ϕ ∈ An(W ). Por
definição temos que ϕ(w) = 0, portanto W̃ ⊂ An(Zero(W̃ )). Seja ψ ∈ V ∗ \ W̃ . Seja
Ã0 = {ϕ1 , . . . , ϕk } uma base de W̃ . Como ψ ∈/ W̃ , a famı́lia Ã0 ∪{ψ} é independente,
portanto pode ser completada a uma base à = {ϕ1 , . . . , ϕk , ψ, ϕk+2 , . . . , ϕn } de V ∗ .
Seja v ∈ V ∗∗ definido por ψ(v) = 1 e ϕi (v) = 0. Temos que ψ ∈ Zero(W̃ ), pois uma
base de W̃ se anula em uma base de W , e ϕ(v) 6= 0, logo v ∈ / Zero(An(W )). 
Corolário 9.1.15. Se W ⊂ V e W̃ ⊂ V ∗ forem sub-espaços vetoriais, então
Zero(An(W )) = W e An(Zero(W̃ )) = W̃ .
9.2. PRODUTO TENSOR 299

Lema 9.1.16. Seja V um espaço vetorial e sejam Z, W ⊂ V sub-espaços vetori-


ais.
(1) dim(An(W )) = dim V − dim W ;
(2) Z ⊂ W ⇔ An(W ) ⊂ An(Z);
(3) An(Z ∩ W ) = AnZ + AnW ;
(4) An(Z + W ) = AnZ ∩ AnW .
Demonstração. (1) Seja A0 = {a1 , . . . , ak } uma base de W e vamos com-
pletá-la a uma base A = {a1 , . . . , ak , ak+1 , . . . , an } de V . Vamos demostrar que
{a∗k+1 , . . . , a∗n } é uma base de An(W ). De fato, seja ϕ = λ1 a∗1 + · · · + λn a∗n . Sendo
A0 uma base de W , ϕ|W = 0 se, e somente se, ϕ(ai ) = 0 para todo i ≤ k. Como
ϕ(ai ) = λi , temos que ϕ|W = 0 se, e somente se, ϕ = λk+1 a∗k+1 + · · · + λn a∗n .
Isso mosta que {a∗k+1 , . . . , a∗n } gera An(W ); sendo um sub-conjunto da base A∗ , é
também independente. (2) (⇒) Se ϕ|W = 0, em particular ϕ|Z = 0. (⇐) 

9.2. Produto tensor


Vamos introduzir a noção de K-espaço vetorial livre gerado por un conjunto
A, sendo K um corpo. Trata-se do K-espaço vetorial KhAi, único a menos de
isomorfismo canônico, tal que A é uma base de KhAi. Como cada elemento de KhAi
é combinação linear de A de modo único, podemos definir KhAi como o conjunto
das combinações lineares formais de A.
Definição 9.2.1. Sejam A um conjunto e K um corpo. O K-espaço vetorial
livre gerado por A, que denotamos por KhAi, é definido da seguinte maneira.
• Como conjunto KhAi contém as combinações lineares formais de elementos
de A com coeficientes em K, ou seja, os elementos de KhAi são da forma
Pk
i=1 λi ai , sendo λi ∈ K, ai ∈ A e k ∈ N. Pk
• Consideremos dois elementos genéricos da forma α = i=1 λi ai e β =
Ph
i=1 µi bi . Podemos unir os elementos a1 , . . . , ak , b1 , . . . ,P
bh em um único
l
conjunto {c1 , . . . , cl } e escrever α e β da forma α = i=1 λi ci e β =
Pl
i=1 µi ci , igualando a 0 os coficientes dos vetores P acrescentados às duas
somas originais. Desta maneira definimos α + β := li=1 (λi + µi )ci .
• O produto externo é definido por λ( ki=1 µi ai ) := ki=1 (λµi )ai .
P P


Claramente, se A for finito e contiver n elementos, então KhAi ' Kn . O iso-
morfismo não é canônico, pois é necessário fixar uma ordem em A para mandar o
elemento i-ésimo de A no elemento i-ésimo da base canônica de Kn .
Definição 9.2.2. Sejam V e W dois espaços vetoriais sobre K. Consideremos o
espaço vetorial KhV × W i. Seja I ⊂ KhV × W i o sub-espaço vetorial gerados pelos
elementos de uma das duas seguintes formas:
• (λv + µv 0 , w) − λ(v, w) − µ(v 0 , w);
• (v, λw + µw0 ) − λ(v, w) − µ(v, w0 ),
300 9. DUALIDADE E PRODUTO TENSOR

sendo v ∈ V , w ∈ W e λ, µ ∈ K. O produto tensor entre V e W é o seguinte espaço


vetorial:
KhV × W i
V ⊗ W := .
I

Fica definida a projeção ao quociente Π : KhV × W i → V ⊗ W . Denotamos o
elemento Π(v, w) por v ⊗ w. Segue da deinição de I que λ(v ⊗ w) = (λv) ⊗ w =
v ⊗ (λw), portanto podemos escrever λv ⊗ w sem risco de confusão. Como Π é
sobrejetora (sendo uma projeção), o elemento genérico de V ⊗ W pode ser escrito
da forma ki=1 λi v i ⊗ wi .
P

Teorema 9.2.3. O produto tensor V ⊗ W é o único K-espaço vetorial, a menos


de isomorfismo canônico, que satisfaz a seguinte propriedade universal. Dados um
K-espaço vetorial Z e uma função bilinear B : V × W → Z, existe uma única
função linear B̃ : V ⊗ W → Z tal que B = B̃ ◦ Π. Esta função é definida por
B̃(v ⊗ w) := B(v, w).
V ×W
B / Z
;
Π
 ∃!B̃
V ⊗ W.
Demonstração. 
Teorema 9.2.4. Sejam A = {a1 , . . . , an } uma base de V e B = {b1 , . . . , bm }
uma base de W . Então AB := {ai ⊗ bj } é uma base de V ⊗ W , logo dim(V ⊗ W ) =
dim V · dim W .
Demonstraç
Pk ão. Seja α ∈ V ⊗PW . Sabemos que αPpode ser escrito da forma
n m
α = i=1 λi v i ⊗ w i . Como v i = j=1 µi,j aj e w i = l=1 ξi,l bl , temos que α =
Pn Pm Pk
j=1 l=1 ( i=1 λi µi,j ξi,l )aj ⊗ bl , portanto AB gera V ⊗ W . Consideremos agora
a função bilinear B : V × W → K que manda P ai ⊗ bj em 1, sendo i e j fixados, e
os demais elementos de AB em 0. Seja α = i,j λi,j ai ⊗ bj . Considerando a função
linear B̃ : V ⊗ W → K induzida pela propriedade universal, temos que B̃(α) = λi,j .
Seja α = 0. Então obviamente B̃(α) = 0, logo λi,j = 0. Isso demonstra que AB é
independente. 
APÊNDICE A

Permutações

301
APÊNDICE B

Escalonamento e teorema da base

303

Você também pode gostar