Algebra Linear

Notas de Aula
Álgebra Linear e Multilinear
1
Rodney Josué Biezuner
Departamento de Matemática
Instituto de Ciências Exatas (ICEx)
Universidade Federal de Minas Gerais (UFMG)
Notas de aula da disciplina Álgebra Linear II

dos Cursos de Bacharelado em Matemática e Matemática Computacional,
lecionada pelo autor durante o primeiro semestre de 2019.
30 de agosto de 2019
1
E-mail: rodney@mat.ufmg.br; homepage: http://www.mat.ufmg.br/∼rodney.
Sumário
Capa 1
Sumário 3
1 Espaços Vetoriais 4
1.1 Estruturas Algébricas Fundamentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Bases e Dimensão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Subespaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Coordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6 Álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.1 A Álgebra de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7 Matriz de Mudança de Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.8 Somas de Subespaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.9 Somas Diretas de Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Lineomorfismos 26
2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Existência e Unicidade de Lineomorfismos . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.2 Isomorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Espaço Quociente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Teorema do Núcleo e da Imagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Representações Matriciais de Morfismos Lineares . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5 A Álgebra dos Operados Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6 Álgebras de Lie Mn (K) e Hom (V ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Funcionais Lineares e o Espaço Dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8 O Morfismo Dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.8.1 Núcleo e Imagem do Morfismo Dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.8.2 Representação Matricial do Morfismo Dual . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Determinantes 49
3.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Existência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.1 Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.2 Demonstração da Unicidade da Função Determinante . . . . . . . . . . . . . . . . . . 57
3.3.3 Fórmula do Determinante através de Permutações . . . . . . . . . . . . . . . . . . . . 59
3.4 Propriedades do Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5 Regra de Cramer e Fórmula da Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1
Rodney Josué Biezuner 2
4 Operadores Diagonalizáveis e Triangularizáveis 66

4.1 Álgebra dos Polinômios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 Autovalores, Autovetores e Autoespaços . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Operadores Diagonalizáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4 Ideais de Polinômios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.5 Polinômio Mı́nimo e o Teorema de Cayley-Hamilton . . . . . . . . . . . . . . . . . . . . . . . 78
4.6 Subespaços Invariantes e Operadores Triangularizáveis . . . . . . . . . . . . . . . . . . . . . . 80
4.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.8 Projeções e Decomposição em Soma Direta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.9 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.10 Fatoração de Polinômios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.11 Teorema da Decomposição Primária e Teorema Espectral . . . . . . . . . . . . . . . . . . . . 94
4.12 Decomposição de um Operador na sua Parte Diagonal e Nilpotente . . . . . . . . . . . . . . . 96
4.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 Forma Canônica de Jordan 99

5.1 Forma de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.1.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.1.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1.3 Existência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.2 Cálculo e Unicidade da Forma de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3 Base de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4 Complexificação de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.5 Forma de Jordan Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6 Formas Bilineares e Espaços Vetoriais Métricos 127

6.1 Formas Bilineares e Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.1.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.1.2 Matriz de uma Forma Bilinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.1.3 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.2 Formas Quadráticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3 Espaços Vetoriais Normados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.4 O Subespaço Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.5 Existência de Bases Ortonormais e Teorema de Sylvester . . . . . . . . . . . . . . . . . . . . . 144
6.5.1 Existência de Bases Ortonormais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.5.2 Teorema de Sylvester para Métricas Reais . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.5.3 Teorema de Sylvester para Formas Bilineares Reais Simétricas . . . . . . . . . . . . . 147
6.6 Algumas Propriedades Geométricas do Espaço de Minkowski . . . . . . . . . . . . . . . . . . 149
6.7 Coordenadas em Espaços Vetoriais Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.8 Projeções Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.9 Processo de Ortogonalização de Gram-Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7 Metrolineomorfismos 158
7.1 Operadores Lineares Métricos e Grupo Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . 158
7.2 Rotações e Reflexões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.3 Isometrias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.4 Operadores Adjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.4.1 Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.4.2 Morfismo Adjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.4.3 Alternativa de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.5 Diagonalização de Operadores Autoadjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.6 Operadores Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.7 Teoria Espectral para Operadores Autoadjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.8 Métodos Variacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8 Espaços Hermitianos 184

8.1 Produto Hermitiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
8.2 Espaços Normados Complexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
8.3 Operadores Adjuntos e Operadores Hermitianos . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.3.1 Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.3.2 Morfismos Adjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.3.3 Alternativa de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
8.4 Operadores Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
8.5 Diagonalização de Operadores Hermitianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
8.6 Operadores Normais Complexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
8.6.1 Caracterização Geométrica de Operadores Normais Complexos . . . . . . . . . . . . . 198
8.6.2 Diagonalização de Operadores Normais Complexos . . . . . . . . . . . . . . . . . . . . 200
8.7 Teoria Espectral para Operadores Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
8.8 Formas Sesquilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Referências Bibliográficas 207

Capı́tulo 1
Espaços Vetoriais
1.1 Estruturas Algébricas Fundamentais

1.1.1 Corpos
1.1 Definição. Um corpo K é um conjunto munido de duas operações binárias K × K −→ K, soma e
produto, que satisfazem as seguintes propriedades:
Soma:
Associatividade: para todos x, y ∈ K vale
x + (y + z) = (x + y) + z.
Comutatividade: para todos x, y, z ∈ K vale
x + y = y + x.
Existência de Identidade: existe um elemento 0 ∈ K tal que para todo x ∈ K temos
x + 0 = 0 + x = x.
Existência de Inversa: para todo x ∈ K existe −x ∈ K tal que
x + (−x) = (−x) + x = 0.
Produto:
Associatividade: para todos x, y ∈ K vale
x (yz) = (xy) z.
Comutatividade: para todos x, y, z ∈ K vale
xy = yx.
Existência de Identidade: existe um elemento 1 ∈ K tal que para todo x ∈ K temos
x1 = 1x = x.
4
Existência de Inversa: para todo x ∈ K, x 6= 0, existe x−1 ∈ K tal que
xx−1 = x−1 x = 1.
Distributividade: Para todos x, y, z ∈ K
x (y + z) = xy + xz.

Em outras palavras, um corpo tem duas estruturas de grupo comutativo e estas estruturas são compatı́veis.
No caso do produto, K como um todo é um grupo apenas quando o zero é excluı́do, isto é, (K, produto)
não é um grupo pois o 0 não possui inverso, mas (K∗ , produto) é, onde
K∗ = K\ {0} .
Como 0 não possui inverso e 1 possui inverso 1, em particular segue que 0 6= 1 e um corpo K possui pelo
menos dois elementos. O corpo Z2 possui exatamente os dois elementos 0 e 1.
1.2 Definição. A caracterı́stica de um corpo K é o menor inteiro n tal que
1 + · · · + 1 = 0,
| {z }
p vezes
se n existir. Caso contrário, dizemos que K tem caracterı́stica zero.

1.3 Exemplo. Z2 , Zp (p primo), Q, R, C. Os primeiros dois são exemplos de corpos finitos com caracterı́stica
não zero, isto é,
1 + ··· + 1 = p · 1 = 0
| {z }
p vezes
enquanto que os três últimos são corpos de caracterı́stica zero.

Neste texto usualmente temos em mente
K=R ou K = C,
mas a maioria dos resultados valerá para todos os corpos e apenas uma minoria para corpos de caracterı́stica
diferente de 2 e uma minoria ainda menor apenas para corpos de caracterı́stica zero.
1.2 Espaços Vetoriais

1.4 Definição. Um K-espaço vetorial (ou espaço vetorial sobre um corpo K) é um conjunto V
munido de duas operações, soma de vetores V × V −→ V e produto de vetores por escalares K × V −→ V
que satisfazem as seguintes propriedades:
Soma de Vetores:
Associatividade: para todos v, w ∈ V
u + (v + w) = (u + v) + w.
Comutatividade: para todos u, v, w ∈ V
v + w = w + v.
Existência de Identidade: existe um elemento 0 ∈ V (vetor nulo) tal que para todo v ∈ V temos
v + 0 = 0 + v = v.
Existência de Inverso: para todo v ∈ V existe −v ∈ V tal que
v + (−v) = 0.
Produto de Vetores por Escalares:

Identidade: Para todo v ∈ V vale
1v = v.
Associatividade: para todos x, y ∈ K e para todo v ∈ V vale
x (yv) = (xy) v.
Distributividade:
(i) Para todos v, w ∈ V e para todo x ∈ K
x (v + w) = xv + xw.
(ii) Para todo v ∈ V e para todos x, y ∈ K
(x + y) v = xv + yv.
Os elementos de V são chamados vetores, e os elementos de K são chamados escalares.

Se K = R dizemos que V é um espaço vetorial real e se K = C dizemos que V é um espaço vetorial
complexo.
1.5 Proposição. As seguintes afirmativas são válidas
(i) x0 = 0.
(ii) 0v = 0.
(iii) xv 6= 0 se x 6= 0 e v 6= 0.
(iv) (−1) v = −v.
(v) Unicidade do vetor nulo.
Prova: (i) Temos
x0 = x (0 + 0) = x0 + x0,
donde
x0 + (−x0) = (x0 + x0) + (−x0)

= x0 + (x0 + (−x0))
= x0,
ou seja,
0 = x0.
(ii) Temos
0v = (0 + 0) v = 0v + 0v,
donde, somando −0v a ambos os lados desta equação,
0v + (−0v) = (0v + 0v) + (−0v)

= 0v + (0v + (−0v))
= 0v,
ou seja,
0 = 0v.
(iii) Suponha que exista x ∈ K, x 6= 0, tal que xv = 0 para algum v ∈ V , v 6= 0. Então
x−1 (xv) = x−1 0.
Mas o lado esquerdo desta equação é
x−1 (xv) = x−1 x v

= 1v
= v,
enquanto que por (i) o lado direito é

x−1 0 = 0,
donde
v=0
uma contradição.
(iv) Temos
0 = 0v
= [1 + (−1)] v
= 1v + (−1) v
= v + (−1) v.
isto é,
0 = v + (−1) v.
Somando −v a ambos os lados, segue que
−v + 0 = −v + [v + (−1) v]
= (−v + v) + (−1) v
= 0 + (−1) v,
ou seja,
−v = (−1) v.
0
(v) Se 0 são dois vetores nulos 0 , por definição
00 = 00 + 0 = 0.

1.6 Corolário. Se um K-espaço vetorial possui um vetor não nulo, então ele possui pelo um número de
vetores igual à cardinalidade de K.
Prova: Por (iii), se v 6= 0 e x 6= y, então xv 6= yv.

Em geral denotaremos o vetor nulo por 0 ao invés do sı́mbolo em negrito 0, a menos que achamos
necessário fazer uma distinção.
1.7 Exemplo. O espaço vetorial nulo V = {0} .
1.8 Exemplo (Espaços das n-uplas de escalares em K). Os espaços
Kn = x 1 , . . . , x n : x 1 , . . . , x n ∈ K ,

ou seja,
Rn = x1 , . . . , x n : x1 , . . . , x n ∈ R ,

Cn = z 1 , . . . , z n : z 1 , . . . , z n ∈ C ,

com a soma e produto por escalar usuais são K-espaços vetoriais. Assim também o espaço das ∞-uplas
K∞ = x0 , x1 , x2 , . . . : xi ∈ K para todo i ∈ N ,

1.9 Exemplo (Espaço das K-matrizes m × n). O espaço das matrizes m × n com elementos em K com
a soma e produto escalar usuais é um K-espaço vetorial, que denotaremos Mm×n (K).
1.10 Exemplo (Espaços de Polinômios com coeficientes em K). Os espaços de polinômios com
coeficientes em K ( n )
X
i
K [x] = ai x : a0 , . . . an ∈ K, n ∈ N ,
i=0
ou seja
( n )
X
R [x] = ai xi : a0 , . . . an ∈ R, n ∈ N ,
i=0
( n )
X
i
C [x] = ai x : a0 , . . . an ∈ C, n ∈ N .
i=0
com a soma e produto por escalar usuais são K-espaços vetoriais. Assim também os espaços de polinômios
com coeficientes em K até grau n:
( n )
X
i
Kn [x] = ai x : a0 , . . . an ∈ K .
i=0

1.11 Exemplo (Espaços de Funções). Os espaços F (X; K) de funções com domı́nio em um conjunto X
e com valores em K com a soma e produto por escalar de funções usuais são K-espaços vetoriais.
Assim também, se X ⊂ Rn é um aberto, o espaço das funções contı́nuas C 0 (X; R), o espaço das funções
k-continuamente diferenciáveis C k (X; R), o espaço das funções suaves C ∞ (X; R), o espaço das funções
p-integráveis Lp (X; R), e vários outros espaços de funções.
Ao invés de funções tomando valores em K podemos considerar também funções tomando valores em Kn .

1.3 Bases e Dimensão

1.12 Definição. Seja S ⊂ V um subconjunto qualquer de um espaço vetorial V . Uma combinação linear
de vetores de S é qualquer soma finita
k
X
xi vi = x1 v1 + . . . + xk vk
i=1
com x1 , . . . , xk ∈ K e v1 , . . . , vk ∈ S.
1.13 Definição. Dizemos que um conjunto S ⊂ V é linearmente dependente (LD) se existir um número
finito de vetores v1 , . . . , vk ∈ S e escalares x1 , . . . , xk ∈ K não todos nulos tais que
x1 v1 + . . . + xk vk = 0,
ou seja, o vetor nulo pode ser escrito como uma combinação linear não trivial de elementos de S.
Caso contrário, isto é, se
x 1 v1 + . . . + x k vk = 0
só for possı́vel quando
x1 = . . . = xk = 0
dizemos que S é linearmente independente (LI).
1.14 Exemplo. O subconjunto infinito
S = xk : k ∈ N

é LI em K [x].
Um subconjunto LI não pode conter o vetor nulo, pois
x0 = 0
é uma combinação linear não trivial quando x 6= 0.

1.15 Proposição. Um subconjunto S ⊂ V é LD se e somente se algum elemento de S puder ser escrito
como combinação linear de outros elementos de S.
Prova. Se S é LD, então existem vetores v1 , . . . , vk ∈ S e escalares x1 , . . . , xk não todos nulos tais que
x1 v1 + . . . + xk vk = 0.
Suponha que xi 6= 0. Então podemos escrever

k
x1 xi−1 xi+1 xk X xj
vi = i
v1 + . . . + i vi−1 + i vi+1 + . . . + i vk = vj ,
x x x x j=1
xi
j6=i
isto é, vi é combinação linear dos outros elementos de S.

Reciprocamente, se v0 , v1 , . . . , vk ∈ S e x1 , . . . , xk ∈ K são tais que
v0 = x 1 v1 + . . . + x k vk ,
então
v0 − x 1 v1 − . . . − x k vk = 0
é uma combinação linear não-trivial de elementos de S, pois o coeficiente de v0 é o escalar não nulo 1.
1.16 Definição. Dizemos que um conjunto S ⊂ V gera o espaço V se para todo v ∈ V existirem vetores
v1 , . . . , vk ∈ S e escalares x1 , . . . , xk ∈ K tais que
v = x 1 v1 + . . . + x k vk .
Denotaremos
V = hv1 , . . . , vk i .

1.17 Definição. Dizemos que um conjunto B ⊂ V é uma base para o espaço V se:
(i) B gera V e
(ii) B é LI.

1.18 Exemplo. Bases canônicas de Kn , Mm×n (K) e K [x].

1.19 Teorema. Todo espaço vetorial não nulo possui uma base.
Prova. Pelo axioma da escolha ou equivalente (para mais detalhes, ver o livro do Halmos).
Quando um K-espaço vetorial possui uma base, ele possui uma quantidade de bases pelo menos igual à
cardinalidade de K, pois podemos substituir qualquer elemento da base por um múltiplo escalar não nulo
dele, obtendo um vetor diferente (pelo Corolário 1.6), mas mantendo as propriedades de uma base.
1.20 Definição. Dizemos que V é um espaço vetorial de dimensão finita se V possui uma base com
um número finito de elementos e também no caso especial V = {0}.
1.21 Exemplo. K [x], C k (X; R) e Lp (X; R) são espaços vetoriais de dimensão infinita. Uma base para
K [x] é
B = xk : k ∈ N .

Uma base explı́cita para C k (X; R) ou Lp (X; R) é desconhecida.

O número de elementos nas bases de um espaço vetorial é um invariante do espaço vetorial. Para provar
isso, provamos primeiro o seguinte resultado:
1.22 Proposição. Suponha que S = {v1 , . . . , vk } gera o espaço vetorial V e que S 0 = {w1 , . . . , wl } é um
subconjunto LI de V . Então
l 6 k.
Prova. Suponha por absurdo que l > k. Como S gera V e S 0 é LI (em particular, S 0 não contém o vetor
nulo) temos
w1 = x11 v1 + . . . + xk1 vk
para alguns escalares x11 , . . . , xk1 não todos nulos. Podemos supor x11 6= 0, reordenando os ı́ndices, se ne-
cessário. Afirmamos que podemos então substituir v1 por w1 , isto é, que o conjunto
S1 = {w1 , v2 , . . . , vk }
gera V . De fato, podemos escrever
1 x2 xk
v1 = w1 − v 2 − . . . − vk ,
x1 x1 x1
de modo que se
v = y 1 v1 + y 2 v2 + . . . + y k vk ,
então
y1 2 k

2 1x 1x
v = 1 w1 + y − y 1 v2 + . . . + yk − y 1 vk .
x x x
Agora, como S1 gera V e S 0 é LI, temos
w2 = x12 w1 + x22 v2 + . . . + xk2 vk
para alguns escalares x12 , x22 , . . . , xk2 , com x22 , . . . , xk2 não todos nulos (caso contrário, w2 seria um múltiplo
escalar de w1 ). Supondo x22 6= 0, reordenando os ı́ndices se necessário, usamos o mesmo argumento acima
para concluir que podemos substituir v2 por w2 , de modo que o conjunto
S2 = {w1 , w2 , v3 , . . . , vk }
gera V . Repetindo este procedimento sucessivamente, concluı́mos que podemos substituir todos os vetores vi
por um número equivalente de wi (já que, por hipótese de absurdo, l > k), e assim obter que o subconjunto
próprio
Sk = {w1 , . . . , wk }
de S 0 gera V . Mas então, por definição de conjunto gerador, existem escalares x1k+1 , . . . , xkk+1 tais que
wk+1 = x1k+1 w1 + . . . + xkk+1 wk
contrariando o fato que S 0 é LI.
1.23 Teorema. Todas as bases de um espaço vetorial de dimensão finita possuem o mesmo número de
elementos.
Prova. Sejam
B1 = {v1 , . . . , vk } ,
B2 = {w1 , . . . , wl } ,
duas bases do espaço vetorial de dimensão finita V . Aplicando a proposição anterior ao conjunto gerador
B1 e ao conjunto LI B2 concluı́mos que l 6 k; aplicando a proposição anterior ao conjunto gerador B2 e ao
conjunto LI B1 concluı́mos que k 6 l. Portanto, k = l.
1.24 Definição. O número de elementos de uma base qualquer de um espaço vetorial de dimensão finita V
é chamada a dimensão do espaço e denotada dim V .
Se V = {0}, então definimos dim V = 0.
1.25 Corolário. Se dim V = n, então todo subconjunto de V com mais de n vetores é LD.
Prova. Segue imediatamente da Proposição 1.22.
1.26 Teorema. Todo espaço vetorial não nulo gerado por um subconjunto finito possui uma base finita.
Prova. Suponha que S seja um subconjunto finito que gera o subespaço vetorial não-nulo V . Se S for LI,
então S é a base procurada e não precisamos fazer nada. Caso contrário, se S é LD, podemos retirar um
elemento de S e o conjunto resultante ainda gerará V (retire um elemento que seja combinação linear dos
demais). Se o conjunto restante for LI, então ele será uma base finita para V . Caso contrário, repetimos o
procedimento, até obter um conjunto LI.
1.27 Lema. Seja S um subconjunto LI de um espaço vetorial V . Suponha que v é um vetor de V que não
pertence ao subespaço gerado por S. Então S ∪ {v} é LI.
Prova. Suponha que v1 , . . . , vk ∈ S e existem escalares x1 , . . . , xk , x tais que
x1 v1 + . . . + xk vk + xv = 0.
Então x = 0, caso contrário

x1 xk
v= v1 + . . . + vk ,
x x
o que implicaria que v pertence ao subespaço gerado por S, contrariando a hipótese. Mas então
x1 v1 + . . . + xk vk = 0,
e como S é LI, segue que x1 = . . . = xk = 0.

1.28 Teorema. Todo subconjunto LI de um espaço vetorial de dimensão finita pode ser completado até uma
base do espaço.
Prova. Suponha que
S = {v1 , . . . , vk }
seja um subconjunto LI de V . Se S não é uma base para V , ou seja, se k < n, então existe um vetor vk+1 ∈ V
tal que vk+1 não é uma combinação linear de elementos de S. Segue que o conjunto
S1 = {v1 , . . . , vk , vk+1 }
é LI. Se k + 1 < n, repetimos o processo. Se dim V = n, repetimos este processo n − k vezes até encontrar
um subconjunto
Sn−k = {v1 , . . . , vk , vk+1 , . . . , vn }
que é uma base para V .
1.4 Subespaços Vetoriais

1.29 Definição. Seja V um K-espaço vetorial. Um subespaço de V é um subconjunto W ⊂ V que é ele
próprio um K-espaço vetorial com as operações de soma e produto por escalar induzidas de V .
1.30 Proposição. Um subconjunto não vazio W ⊂ V é um subespaço de V se e somente se ele é fechado
com relação às operações de soma e produto por escalar.
Em outras palavras, W ⊂ V é um subespaço de V se e somente se xv + yw ∈ W para todos v, w ∈ W e
para todos x, y ∈ K.
Prova. Suponha que W ⊂ V , W 6= ∅, é fechado com relação às operações de soma e produto por escalar.
Como as operações de soma e produto por escalar definidas em W são herdadas das operações definidas em
V , comutatividade, associatividade e distributividade são imediatamente válidas e 1v = v para todo v ∈ W .
Basta apenas verificar as duas propriedades seguintes:
• 0 ∈ W : pois se v ∈ W é qualquer vetor (lembre-se que W 6= ∅), então 0v = 0 ∈ W .

• Se v ∈ W , então −v ∈ W : pois −v = (−1) v ∈ W.
A recı́proca é óbvia.
1.31 Exemplo. Se W1 , W2 são dois subespaços de V tais que
W1 W2 ,
W2 W1 ,
então W1 ∪ W2 não é um subespaço vetorial de V . De fato, tomando
w1 ∈ W1 \W2 ,
w2 ∈ W2 \W1 ,
o vetor v = w1 + w2 não está em W1 ∪ W2 , apesar de w1 e w2 estarem.

1.32 Teorema. A interseção de qualquer famı́lia de subespaços de um espaço vetorial V é um subespaço de
V.
Prova. Seja {Wλ }λ∈Λ uma coleção de subespaços de V e
\
W = Wλ
λ∈Λ
sua interseção. Como cada Wλ contém o vetor nulo, segue que W também contém o vetor nulo, em particular
é não vazio e podemos usar a Proposição 1.30 para provar que W é um subespaço.
De fato, dados quaisquer v, w ∈ W , temos que v, w ∈ Wλ para cada ı́ndice λ ∈ Λ (por definição de
interseção de conjuntos), logo xv + yw ∈ Wλ para todos x, y ∈ K (pela Proposição 1.30, pois cada Wλ é um
subespaço de V ), portanto xv + yw ∈ W para todos x, y ∈ K (novamente, pela definição de interseção de
conjuntos). Segue da Proposição 1.30 que W é um subespaço.
Segue deste resultado que dado um subconjunto de um espaço vetorial, existe um menor subespaço que o
contém:
1.33 Proposição. Seja V um espaço vetorial e S um subconjunto não vazio de V . O subespaço W = hSi
gerado por S é a interseção de todos os subespaços de V que contém S.
Prova. Denote por W 0 a interseção de todos os subespaços de V que contém S. Pela Proposição 1.30, como
S ⊂ W 0 , segue que
W ⊂ W 0.
Por outro lado, pela Proposição 1.32 o conjunto W 0 é um subespaço de V , portanto fechado com relação a
combinações lineares de seus elementos, em particular dos elementos de S que ele contém, logo
W 0 ⊂ hSi = W.
Assim W 0 = W .
1.34 Teorema. Se W é um subespaço próprio de um espaço vetorial de dimensão finita V , então W também
tem dimensão finita e dim W < dim V .
Prova. Seja n = dim V . Qualquer subconjunto S ⊂ W LI em W é também LI em V , por definição de
independência linear. Como V tem dimensão finita, S não pode conter mais que n elementos, pela Proposição
1.25.
O resultado deste teorema é óbvio se W é o subespaço nulo. Se W não é o subespaço nulo, existe v1 ∈ W ,
v1 6= 0. Tome
S1 = {v1 } ,
de modo que S1 é um subconjunto LI de W . Estendemos S1 a uma base para W da seguinte forma: se S1
já é uma base para W , então não é necessário fazer mais nada; caso contrário, se S1 não gera W , usamos o
Lema 1.27 para encontrar um vetor v2 ∈ V \ hS1 i tal que
S2 = S1 ∪ {v2 } = {v1 , v2 }
é LI. Se S2 já é uma base para W , então não é necessário fazer mais nada; caso contrário, se S2 não gera W ,
usamos o Lema 1.27 novamente para encontrar um vetor v3 ∈ V \ hS2 i tal que
S3 = S2 ∪ {v3 } = {v1 , v2 , v3 }
é LI. Continuando desta forma, obteremos necessariamente um conjunto LI Sk que gera W para algum k;
na pior das hipóteses obteremos no final um conjunto LI
Sn = {v1 , . . . , vn−1 }
que gera W , pois V não contém nenhum subconjunto LI com mais que n vetores e W V.
1.5 Coordenadas
A existência de bases permite identificar vetores de um espaço vetorial com um número finito de escalares,
o que permite lidar com vetores de maneira numerica e computacional:
1.35 Proposição. Sejam V um espaço vetorial e B uma base para V .
Todo vetor de V se escreve de maneira única como uma combinação linear de vetores de B.
Prova. Se V é um espaço vetorial de dimensão finita, isso é mais fácil de ver. Suponha que B = {e1 , . . . , en }
é uma base para V e que v ∈ V pode ser representado por duas combinações lineares de vetores de B:
v = v 1 e1 + . . . + v n en ,
0 0
v = v 1 e1 + . . . + v n en .
Então 0
0

v1 − v1 e1 + . . . + v n − v n en = 0,
0 0
e como B é LI, segue que v 1 = v 1 , . . . , v n = v n .
Suponha agora que V é um espaço vetorial de dimensão arbitrária e B = {ei }i∈I é uma base para V .
Dado v ∈ V , suponha que v pode ser representado por duas combinações lineares de vetores de B:
v = v λ1 eλ1 + . . . + v λk eλk ,
v = v µ1 eµ1 + . . . + v µl eµl ,
Então
k
X l
X
v λi eλi − v µj eµj = 0.
i=1 j=1
Como B é LI, se λi 6= µj para todo j, então v = 0 e, analogamente, se µj 6= λi para todo i, então v µj = 0;

λi
se λi = µj para algum par de ı́ndices i, j, então v λi = v µj .

1.36 Definição. Sejam V um espaço vetorial de dimensão finita e B = {e1 , . . . , en } uma base para V . Dado
v ∈ V , se
v = v 1 e1 + . . . + v n en ,
os escalares v 1 , . . . , v n são chamados as coordenadas de v com relação à base B.

Denotamos

[v]B = v 1 , . . . , v n .

1.37 Definição. Sejam V um espaço vetorial de dimensão arbitrária e B = {ei }i∈I uma base para V . Dado
v ∈ V , se X
v= v i ei ,
i∈I
os escalares v i , i ∈ I, são chamados as coordenadas de v com relação à base B.

Denotamos
[v]B = v λ λ∈Λ .

Observe que a soma X
v= v i ei ,
i∈I
é sempre uma soma finita porque, com a exceção de um número finito de ı́ndices, todos os escalares são
nulos, logo não temos que nos preocupar com problemas de convergência.
1.6 Álgebras
1.38 Definição. Um K-espaço vetorial V munido de uma operação binária K-bilinear
∗ : V × V −→ V
é chamado uma álgebra. A operação é chamada produto de vetores.

Dizemos que a álgebra é associativa se
u ∗ (v ∗ w) = (u ∗ v) ∗ w
para todos u, v, w ∈ V .
Dizemos que a álgebra é comutativa se
v∗w =w∗v
para todos v, w ∈ V .
Dizemos que a álgebra possui uma identidade se existe um vetor e ∈ V tal que
e∗v =v∗e=v
para todo v ∈ V .
Dizer que a operação produto é bilinear é equivalente a dizer que ela satisfaz a propriedade de distributividade,
isto é,
(xu + yv) ∗ w = x (u ∗ w) + y (v ∗ w) ,
u ∗ (xv + yw) = x (u ∗ v) + y (u ∗ w) ,
(xv) ∗ w = x (v ∗ w) = v ∗ (xw) ,
para todos u, v, w ∈ V e para todos x, y ∈ K. Quando existir, a identidade é única, pois se e, e0 ∈ V são duas
identidades, então por definição de identidade
e = ee0 = e0 .
1.39 Exemplo. K [x] com o produto usual de polinômios é uma álgebra associativa, comutativa e com
identidade.
1.40 Exemplo. R3 com o produto vetorial usual é uma álgebra não associativa, não comutativa e sem
identidade (o produto vetorial de dois vetores é sempre um terceiro vetor ortogonal a ambos).
1.6.1 A Álgebra de Matrizes

Matrizes são instrumentos para fazer operações computacionais com vetores expressos em coordenadas em
espaços vetoriais de dimensão finita.
1.41 Definição. Uma matriz m × n sobre um corpo K é uma função
A : {1, . . . , m} × {1, . . . , n} −→ K.
As entradas (ou elementos) da matriz A são os escalares A (i, j) que denotaremos por Aij ; a matriz A

também frequentemente é denotada por A = Aij e representada graficamente por uma tabela retangular
com m linhas e n colunas, com a entrada Aij ocupando a linha i e a coluna j.
Uma matriz m × 1 é chamada uma matriz coluna e uma matriz 1 × n é chamada uma matriz linha.
O conjunto das matrizes m × n sobre o corpo K será denotado por
Mm×n (K)
e, quando m = n, simplesmente por

Mn (K).

1.42 Definição. Definimos em Mm×n (K) as operações de soma e produto por escalar
i
(A + B)j := Aij + Bji ,
i
(xA)j := xAij .

1.43 Proposição. Mm×n (K) é um K-espaço vetorial com dimensão mn.
Prova: Uma base para Mm×n (K) é dada por
B = {Eij : 1 6 i 6 m e 1 6 j 6 n}
onde
k ij
(Eij )l = δkl .

1.44 Definição. Dadas duas matrizes sobre o corpo K, Am×p e Bp×n , o produto AB é a matriz m × p
definida por
p
X
i
(AB)j = Air Bjr .
r=1

1.45 Proposição. O produto de matrizes satisfaz as seguintes propriedades
(i) (Associatividade) Para todas matrizes A ∈ Mm×p (K), B ∈ Mp×q (K) e C ∈ Mq×n (K) vale
A(BC) = (AB)C.
(ii) (Distributividade) Para todas matrizes A, B, C ∈ Mm×n (K) vale
A(B + C) = AB + AC,
(A + B)C = AC + BC.
(iii) (Distributividade com relação à multiplicação por escalar) Para toda matriz A ∈ Mm×n (K) e para
todo escalar α ∈ K vale
α(AB) = (αA)B = A(αB).
(iv) (Existência de identidade) Se In ∈ Mn (K) := Mn×n (K) denota a matriz
 
1 0 ··· 0
 0 1 ··· 0 
In =  . . . ,
 
 .. .. . . ... 

0 0 ··· 1
isto é,
i
(In )j = δji .
Então, para toda matriz A ∈ Mm×n (K) vale
AIn = Im A = A.
Em particular, Mn (K) é uma álgebra associativa com identidade.

Prova: (i) De fato, se A ∈ Mm×p (K), B ∈ Mp×q (K) e C ∈ Mq×n (K), então os produtos estão todos definidos
e nós temos
p p q
!
X r
X X
i i i r s
[A(BC)]j = Ar (BC)j = Ar Bs C j
r=1 r=1 s=1
p X
X q p X
X q
Air Bsr Cj = s
Air Bsr Cjs

=
r=1 s=1 r=1 s=1
q X
p q p
!
X X X
Air Bsr Cjs Air Bsr Cjs

= =
s=1 r=1 s=1 r=1
q
X i
= (AB)s Cjs = [(AB)C]ij .
s=1
A demonstração fica mais fácil de ver usando a convenção de Einstein:

r i
[A(BC)]ij = Air (BC)j = Air Bsr Cjs = Air Bsr Cjs = (AB)s Cjs = [(AB)C]ij .

(ii), (iii) e (iv) ficam como exercı́cio.

1.46 Definição. Uma matriz quadrada A ∈ Mn (K) é invertı́vel se existe uma matriz B ∈ Mn (K) tal que
AB = BA = I.
B é chamada a inversa de A.
1.47 Proposição. Valem os seguintes fatos:
(i) Se uma matriz possui uma inversa, então esta inversa é única.
(ii) Se A é invertı́vel, então A−1 também é e (A−1 )−1 = A.
(iii) Se A, B são invertı́veis, então AB também é e
(AB)−1 = B −1 A−1 .
Prova: (i) Suponha que
AB1 = B1 A = I.
AB2 = B2 A = I.
Tomando a equação B1 A = I, por exemplo, e multiplicando ambos os lados desta equação à direita por B2 ,
obtemos
(B1 A)B2 = IB2 ⇒ B1 (AB2 ) = B2 ⇒ B1 I = B2 ⇒ B1 = B2 .
(iii) Para verificar isso, temos que mostrar que
(AB)B −1 A−1 = I,
B −1 A−1 (AB) = I.
Provaremos a primeira identidade, já que a demonstração da segunda é análoga. De fato,
(AB)B −1 A−1 = A(BB −1 )A−1 = AIA−1 = AA−1 = I.

Questões: Se A e B são matrizes n × n tais que o produto AB é invertı́vel, então A e B também são
necessariamente invertı́veis? E se A e B são matrizes tais que o produto AB é invertı́vel, então A e B
também são necessariamente invertı́veis? Estas questões serão resolvidas no próximo capı́tulo.
1.7 Matriz de Mudança de Base

1.48 Definição. Dado um espaço vetorial V de dimensão finita, e uma base B = {e1 , . . . , en } para V ,
representamos um vetor v de V com relação à base B através de uma matriz coluna
 1 
v
 .. 
[v]B =  . 
vn
onde as entradas v 1 , . . . , v n são as coordenadas de v com relação à base B.

1.49 Lema. Se A ∈ Mn (K) é tal que para toda matriz coluna X ∈ Mn×1 (K) vale
AX = X,
ou para toda matriz linha C ∈ M1×n (K) vale
Y A = Y,
então A = I.
Prova: Se
AX = X
para toda matriz coluna X, em particular tomando X = Ej obtemos
Aj = AEj = Ej .
onde Aj denota a j-ésima coluna de A. O segundo resultado segue do primeiro tomando transpostas.
1.50 Teorema. Sejam
B = {e1 , . . . , en } ,
B0 = {e01 , . . . , e0n } ,
duas bases para o espaço vetorial V . Então existe uma única matriz invertı́vel P tal que
[v]B0 = P [v]B ,
[v]B = P −1 [v]B0 ,
para todo vetor v ∈ V , chamada a matriz de mudança de base de B para B0 , denotada também
P = PB→B0 ,
de modo que
[v]B0 = PB→B0 [v]B .
Em particular, tomando v = ei , segue que as colunas de P são dadas pelas coordenadas dos vetores da
base B com relação à base B0 , ou seja,
Pi = [ei ]B0 .
para i = 1, . . . , n.
Prova: Suponha que os vetores da base B se escrevem em coordenadas com relação à base B0 na forma
n
X
ej = Pji e0i ,
i=1
para cada j = 1, . . . , n, para certos escalares Pji ∈ K. Dado um vetor v ∈ V , suas coordenadas em relação
às bases B e B0 são, respectivamente,
n
X
v= v j ej ,
j=1
n
X 0
v= v i e0i .
i=1
Como
n
X
v= v j ej
j=1
n n
!
X X
= v j
Pji e0i
j=1 i=1
 
n
X n
X
=  Pji v j  e0i ,
i=1 j=1
segue da unicidade das coordenadas em relação a uma base que

n
X
vi0 = Pji v j ,
j=1
ou seja,
[v]B0 = P [v]B
i

para a matriz P = Pj ∈ Mn (K). Analogamente, existe uma matriz Q ∈ Mn (K) tal que
[v]B = Q [v]B0 .
Em particular
[v]B0 = P [v]B = P Q [v]B0 ,

[v]B = Q [v]B0 = QP [v]B ,
para todo v ∈ V . Pelo lema segue que

P Q = QP = I,
−1
ou seja, Q = P .
1.8 Somas de Subespaços Vetoriais

1.51 Definição. Sejam S1 , . . . , Sk subconjuntos de um espaço vetorial V . Definimos a soma dos subcon-
juntos S1 , . . . , Sk como sendo o conjunto
k
X
Si = S1 + . . . + Sk
i=1
= {v1 + . . . + vk : vi ∈ Si para i = 1, . . . k} .

1.52 Proposição. Se W1 , . . . , Wk são subespaços de um espaço vetorial V , então a sua soma W1 + . . . + Wk
também é um subespaço vetorial de V e contém cada um dos subespaços Wi , i = 1, . . . k.
Prova. Usando a Proposição 1.30, se
v = w1 + . . . + wk ,
v 0 = w10 + . . . + wk0 ,
são dois vetores quaisquer de W1 + . . . + Wk , com wi , wi0 ∈ Wi para cada i, e x, y são escalares quaisquer,
segue que
xv + yv 0 = (xw1 + yw10 ) + . . . + (xwk + ywk0 )

∈ W1 + . . . + W k .
A última afirmação do enunciado é óbvia, pois o vetor nulo esta em cada um dos subespaços.
1.53 Teorema. Se W1 , W2 são dois subespaços de dimensão finita de um espaço vetorial V , então W1 + W2
também tem dimensão finita e
dim (W1 + W2 ) = dim W1 + dim W2 − dim (W1 ∩ W2 )
Prova. Pelos Teoremas 1.32 e 1.34, W1 ∩ W2 é um subespaço vetorial de V , e portanto também de W1 , W2 ,

que tem uma base finita
{e1 , . . . , en } .
Pelo Teorema 1.28, esta é parte de uma base
B1 = {e1 , . . . , en , f1 , . . . , fk }
para W1 e parte de uma base

B2 = {e1 , . . . , en , g1 , . . . , gl }
para W2 . O subespaço W1 + W2 é gerado pelo conjunto
B = {e1 , . . . , en , f1 , . . . , fk , g1 , . . . , gl } .
Basta provar que B é LI para terminar a demonstração, pois então B será uma base para W1 +W2 e portanto
dim W1 + dim W2 = (n + k) + (n + l)
= (n + k + l) + n
= dim (W1 + W2 ) + dim (W1 ∩ W2 ) .
De fato, suponha que

n
X k
X l
X
i i
x ei + y fi + z i gi = 0.
i=1 i=1 i=1
Escrevendo
l
X n
X k
X
w := z i gi = − xi ei − y i fi ,
i=1 i=1 i=1
vemos que w ∈ W2 e que também w ∈ W1 , ou seja, w ∈ W1 ∩ W2 . Em particular, existem escalares

w1 , . . . , wn tais que
Xn
w= w i ei .
i=1
Subtraindo as duas expressões para w, obtemos

n
X l
X
w i ei − z i gi = 0,
i=1 i=1
e como {e1 , . . . , en , g1 , . . . , gl } é LI, concluı́mos que
w1 = . . . = wn = z 1 = . . . = z l = 0.
Mas então w = 0 e
n
X k
X
xi ei + y i fi = 0;
i=1 i=1
como {e1 , . . . , en , f1 , . . . , fk } é LI, segue que
x1 = . . . = xn = y 1 = . . . = y k = 0.

1.54 Definição. Sejam W1 , W2 dois subespaços de um espaço vetorial V . Se W1 ∩ W2 = {0}, dizemos que
os subespaços W1 , W2 são LI e sua soma W1 + W2 é chamada soma direta e denotada
W1 ⊕ W2 .

1.55 Corolário. Se W = W1 ⊕ W2 , então
dim W = dim W1 + dim W2 .
Prova. Segue imediatamente do Teorema 1.53 quando se observa que
dim (W1 ∩ W2 ) = dim {0} = 0.

1.56 Proposição. W = W1 ⊕ W2 se e somente se todo vetor w ∈ W se escreve de maneira única na forma
w = w1 + w2
com w1 ∈ W1 e w2 ∈ W2 .
Prova. Assuma que W1 ∩ W2 = {0}. Seja w ∈ W e suponha que
w = w1 + w2
w = w10 + w20
w1 , w10 ∈ W1 e w2 , w20 ∈ W2 . Então

(w1 − w10 ) + (w2 − w20 ) = 0,
donde
(w1 − w10 ) = − (w2 − w20 ) .
Mas então (w1 − w10 ) ∈ W1 ∩ W2 e (w2 − w20 ) ∈ W1 ∩ W2 , logo w1 − w10 = 0 e w2 − w20 = 0, ou seja, w1 = w10
e w2 = w20 .
Reciprocamente, assuma que todo elemento w ∈ W se escrever de maneira única como uma soma w =
w1 + w2 , com w1 ∈ W1 e w2 ∈ W2 , e suponha por absurdo que exista um vetor v ∈ W1 ∩ W2 tal que v 6= 0.
Então o vetor nulo é um vetor de W que se escreve pelo menos de duas maneiras diferentes como a soma de
vetores de W1 e W2 :
0 = v + (−v) ,
0 = 0 + 0.

1.57 Teorema. Seja V um espaço vetorial de dimensão finita de dimensão n. Então todo subespaço W ⊂ V
de dimensão k possui um complemento em V , isto é, existe um subespaço Z ⊂ V de dimensão n − k tal que
V = W ⊕ Z.
Prova. Se W = {0} ou W = V , tome Z = V ou Z = {0}, respectivamente.

Caso contrário, seja
{e1 , . . . , ek }
uma base para W . Complete esta base até uma base para V :
B = {e1 , . . . , ek , ek+1 , . . . , en } .
Então tomamos como Z o subespaço gerado pelos vetores ek+1 , . . . , en , isto é,
Z = hek+1 , . . . , en i .
De fato, se W ∩ Z 6= {0}, tomando um vetor não-nulo v ∈ W ∩ Z, terı́amos escalares v 1 , . . . , v k , v k+1 , . . . , v n

não todos nulos tais que
k
X
v= v i ei ,
i=1
Xn
v= v i ei ,
i=k+1
donde
k
X n
X
v i ei − v i ei = 0
i=1 i=k+1
seria uma combinação linear não trivial produzindo o vetor nulo, contradizendo o fato que B é LI.
1.58 Exemplo. Se ( n )
X
par 2i
K [x] = ai x : a0 , . . . an ∈ K, n ∈ N ,
i=0
é o subespaço dos polinômios pares e

( n )
X
Kı́mpar [x] = ai x2i+1 : a0 , . . . an ∈ K, n ∈ N ,
i=0
é o subespaço dos polinômios ı́mpares (note que o polinômio nulo é simultaneamente par e ı́mpar), então
K [x] = Kpar [x] ⊕ Kı́mpar [x] .
1.59 Exemplo. Se
Fpar = {f : R −→ R : f (x) = f (−x)} ,
é o subespaço das funções reais pares e
Fı́mpar = {f : R −→ R : f (x) = −f (−x)} ,
é o subespaço das funções reais ı́mpares, então
F (R; R) = Fpar ⊕ Fı́mpar ,
pois todo função f ∈ F (R; R) se escreve de forma única como uma soma f = g + h de uma função par g e
uma função ı́mpar h; basta tomar
f (x) + f (−x)
g (x) = ,
2
f (x) − f (−x)
h (x) = ,
2
e a função nula é a única função simultaneamente par e ı́mpar.
Generalizamos a Definição 1.54 e os resultados que lhe seguem para um número arbitrário de subespaços
de V :
1.60 Definição. Seja V um espaço vetorial. Dizemos que os subespaços vetoriais W1 , . . . , Wk de V são LI
se
w1 + . . . + wk = 0
implicar
w1 = . . . = wk = 0.
Neste caso sua soma é chamada uma soma direta e denotada
W1 ⊕ . . . ⊕ Wk .

1.61 Proposição. Todo vetor de W = W1 ⊕ . . . ⊕ Wk se escreve de maneira única na forma
w = w1 + . . . + wk
com wi ∈ Wi para todo i.
1.62 Proposição. Sejam V um espaço vetorial e W1 , . . . , Wk subespaços de V . As seguintes afirmações
são equivalentes:
1.63 Lema. (i) W1 , . . . , Wk são LI.
(ii) Para cada 2 6 j 6 k nós temos
(W1 + . . . + Wj−1 ) ∩ Wj = {0} .
(iii) Se Bi é uma base para Wi então B = {B1 , . . . , Bk } é uma base para W1 + . . . + Wk .
Prova: (i) ⇒ (ii) Seja w ∈ (W1 + . . . + Wj−1 ) ∩ Wj . Então temos simultaneamente
w ∈ Wj ,
w = w1 + . . . + wj−1 ,
para alguns vetores wi ∈ Wi . Como
w1 + . . . + wj−1 − w + 0 + . . . + 0 = 0
concluı́mos que w1 = . . . = wj−1 = w = 0.
(ii) ⇒ (i) Suponha que
w1 + . . . + wk = 0
com wi ∈ Wi para cada i. Se existe algum wj não nulo, seja j o maior inteiro tal que wj 6= 0. Então
w1 + . . . + wj = 0 e
wj = −w1 − . . . − wj−1
contradizendo (W1 + . . . + Wj−1 ) ∩ Wj = {0}.
(i) ⇔ (iii) Óbvio.
1.9 Somas Diretas de Espaços Vetoriais

1.64 Definição. Sejam V, W dois K-espaços vetoriais. A soma direta (ou espaço vetorial produto)
V ⊕ W de V e W é o produto cartesiano V × W com as operações de soma e produto por escalar definidas
por
(v1 , w1 ) + (v2 , w2 ) := (v1 + v2 , w1 + w2 ) ,
x (v, w) := (xv, xw) .

1.65 Proposição. Vale

dim (V ⊕ W ) = dim V + dim W.
Prova. Se
BV = {e1 , . . . , en } ,
BW = {f1 , . . . , fm } ,
são bases de V e W , respectivamente, então
B = {(e1 , 0) , . . . , (en , 0) , (0, f1 ) , . . . , (0, fm )}
é uma base para V ⊕ W .

Capı́tulo 2
Lineomorfismos
2.1 Definição
Definida uma estrutura matemática sobre conjuntos (e portanto a especificação de uma determinada classe
de conjuntos, ou seja, aqueles que possuem esta estrutura, chamados objetos), o estudo desta estrutura só
é completo quando se estuda também as funções entre estes conjuntos que preservam esta estrutura, isto é,
os morfismos com respeito a esta estrutura (morfismos entre objetos). A classe de objetos (conjuntos que
possuem esta estrutura) juntamente com o conjunto de morfismos (funções que preservam esta estrutura)
é chamada uma categoria. Na Álgebra Linear, o objetivo é estudar a categoria dos espaços vetoriais sobre
o corpo K, caracterizados por uma estrutura linear, isto é, a capacidade de somar vetores e multiplicá-los
por escalares em K (em outras palavras, a capacidade de tomar combinações lineares). Os morfismos que
preservam esta estrutura linear são chamados aplicações lineares, mapas lineares, transformações lineares
ou, simplesmente, morfismos lineares ou lineomorfismos. Neste texto escolhemos estes últimos dois nomes.
2.1 Definição. Sejam V, W dois espaços vetoriais sobre um mesmo corpo K.
Uma função T : V −→ W é chamado um lineomorfismo ou morfismo linear se
T (xv + yw) = xT (v) + yT (w)
para todos v, w ∈ V e x, y ∈ K.
Quando V = W , um morfismo linear T : V −→ V é chamado um operador linear.
Morfismos lineares preservam portanto as operações que definem um espaço vetorial, que são a soma de
vetores e a multiplicação de vetores por escalares, isto é, morfismos lineares preservam combinações lineares.
Preservar combinações lineares significa que a imagem de uma combinação linear de vetores é a mesma
combinação linear das imagens destes vetores.
2.2 Proposição. Se
T : V −→ W,
S : W −→ Z,
são morfismos lineares, então sua composta
S ◦ T : V −→ Z
também é um morfismo linear.
26
Prova: Por linearidade,
(S ◦ T ) (xv + yw) = S [T (xv + yw)]

= S [xT (v) + yT (w)]
= xS [T (v)] + yS [T (w)]
= x (S ◦ T ) (v) + y (S ◦ T ) (w) .

Um lineomorfismo T : V −→ W leva a identidade do espaço vetorial V na identidade do espaço vetorial
W:
2.3 Proposição. Seja T : V −→ W um morfismo linear. Então T (0V ) = 0W .
Prova: Observe que estamos usando notações diferentes para os vetores nulos de cada espaço por motivos
de clareza. Temos
T (0V ) = T (00V ) = 0T (0V ) = 0W .
2.1.1 Existência e Unicidade de Lineomorfismos

2.4 Teorema. Um lineomorfismo é completamente determinado pelos valores que ele toma em uma base.
Prova: Sejam T : V −→ W um morfismo linear e B = {ei }i∈I uma base para V . Dado um vetor v ∈ V , ele
se escreve como uma combinação linear
v = v i1 e i1 + . . . + v in e in
para alguns vetores ei1 , . . . , ein ∈ B. Logo,

n
! n
X X
ii
Tv = T v e ii = v ii T (eii ) .
i=1 i=1

Podemos dizer ainda mais: para definir um morfismo linear T : V −→ W basta estipular os seus valores em
uma base e estender linearmente aos demais vetores de V :
2.5 Teorema. Sejam V um espaço vetorial, B = {ei }i∈I uma base para V e {fi }i∈I um conjunto de vetores
arbitrários de um espaço vetorial W .
Existe um único morfismo linear T : V −→ W tal que
T ei = fi
para todo i ∈ I.
Prova: Primeiro, o caso de dimensão finita: sejam B = {e1 , . . . , en } uma base para V e f1 , . . . , fn ∈ W
vetores arbitrários. Como todo vetor v ∈ V se escreve como uma combinação linear de maneira única
v = v 1 e1 + . . . + v n en ,
definimos T : V −→ W por
T v = v 1 f1 + . . . + v n fn .
Para ver que T é um morfismo linear, escrevendo vetores quaisquer v, w ∈ V na forma

n
X
v= v i ei ,
i=1
n
X
w= w i ei ,
i=1
para todos escalares x, y ∈ K temos

n n
!
X X
i i
T (xv + yw) = T x v ei + y w ei
i=1 i=1
n
!
X
i i

=T xv + yw ei
i=1
n
X
xv i + ywi fi

=
i=1
Xn n
X
i
=x v fi + y w i fi
i=1 i=1
= xT (v) + yT (w) .
A unicidade de T decorre do teorema anterior.
No caso em que V, W tem dimensões arbitrárias, como todo vetor v ∈ V se escreve como uma combinação
linear de maneira única X
v= v i ei ,
i∈I
i
onde apenas um número finito dos escalares v são não nulos, definimos a aplicação T : V −→ W por
X
Tv = v i fi .
i∈I
Escrevendo vetores quaisquer v, w ∈ V na forma

X
v= v i ei ,
i∈I
X
w= w i ei ,
i∈I
i i
onde apenas um número finito dos escalares v , w são não nulos, para todos escalares x, y ∈ K temos
!
X X
i i
T (xv + yw) = T x v ei + y w ei
i∈I i∈I
!
X
i i

=T xv + yw ei
i∈I
X
xv i + ywi fi

=
i∈I
X X
=x v i fi + y w i fi
i∈I i∈I
= xT (v) + yT (w) .

2.6 Definição. Sejam V, W K-espaços vetoriais. Denotamos o conjunto dos morfismos lineares de V em W
por Hom (V, W ).
Definimos uma estrutura de K-espaço vetorial em Hom (V, W ) por
(T + S) (v) := T (v) + S (v) ,

(xT ) (v) := xT (v) ,
para todo v ∈ V .
Se V = W , denotamos Hom (V, W ) simplesmente por Hom(V ).
2.1.2 Isomorfismos
2.7 Definição. Dizemos que dois espaços vetoriais V e W são isomorfos quando existe um lineomorfismo
bijetivo T : V −→ W cujo inverso é linear.
Neste caso, T é chamado um isomorfismo.
Como a composta de isomorfismos é um isomorfismo, dois espaços vetoriais serem isomorfos é uma relação
de equivalência. Assim, do ponto de vista da álgebra linear, dois espaços isomorfos são indistinguı́veis.
2.8 Proposição. Se T : V −→ W é um lineomorfismo injetivo, então a inversa T −1 : T (V ) −→ V é
automaticamente linear.
Prova: Dados w1 , w2 ∈ T (V ), sejam v1 , v2 ∈ V tais que
T (v1 ) = w1 ,
T (v2 ) = w2 .
Dados x, y ∈ K, segue que
T (xv1 + yv2 ) = xT (v1 ) + yT (v2 )

= xw1 + yw2 .
Portanto,
T −1 (xw1 + yw2 ) = xv1 + yv2 = xT −1 (w1 ) + yT −1 (w2 ) .

2.9 Proposição. Um lineomorfismo é injetivo se e somente se T −1 (0) = 0.
Prova: Assuma T −1 (0) = 0. Se T (v) = T (w), por linearidade segue que T (v − w) = 0, logo v − w = 0 e
portanto v = w, ou seja, T é injetivo.
Reciprocamente, assuma T : V −→ W injetivo. Por linearidade T (0) = 0. Se T (v) = T (w), por
linearidade T (v − w) = 0, logo segue da injetividade de T que v − w = 0, ou seja v = w.
2.10 Teorema. Todo K-espaço vetorial de dimensão n é isomorfo a Kn .
Prova: Denote por ei o i-ésimo vetor da base canônica de Kn , isto é, o j-ésimo elemento da n-upla ei é
eji = δij ,
o delta de Kronecker. Sejam V um espaço vetorial de dimensão n e B = {v1 , . . . , vn } uma base para V .
Usando o Teorema 2.5, definimos um lineomorfismo T : V −→ Kn por
T (vi ) = ei ,
É fácil ver que T é um isomorfismo.

2.11 Teorema. Se n 6= m, então Kn não é isomorfo a Km .

Prova: Suponha n > m e assuma por absurdo que T : Kn −→ Km é um isomorfismo. Mostraremos que
{T e1 , . . . , T en } é um conjunto LI no espaço Km de dimensão m < n, uma contradição. De fato, se
0 = x1 T (e1 ) + . . . + xn T (en ) = T x1 e1 + . . . + xn en ,

então
x1 e1 + . . . + xn en = 0
porque T é injetivo, o que por sua vez implica x1 = . . . = xn = 0.
2.12 Corolário. Sejam V e W espaços vetoriais isomorfos. Então dim V = dim W .
Prova: Segue dos Teoremas 2.10 e 2.11 e do fato de que a composta de um isomorfismo é um isomorfismo.
2.2 Espaço Quociente

2.13 Definição. Seja U um subespaço do espaço vetorial V . Se v, w ∈ V , dizemos que v é equivalente a
w módulo U se
v − w ∈ U.
Denotamos isso por

v∼w
e por v ∼U w ou ainda por v ∼ w (mod U ) quando for necessário explicitar o subespaço U .
A relação de equivalência módulo subespaço é uma relação de equivalência em V , como pode ser facilmente
verificado. Denotaremos a classe de equivalência do vetor v por [v], isto é,
[v] = {w ∈ V : w ∼ v} .
Observe que a classe de equivalência do vetor nulo é exatamente o subespaço U :
[0] = U.
2.14 Definição. Seja U um subespaço do espaço vetorial V . As operações de soma e produto por escalar de
V induzem de forma natural operações de soma e produto por escalar no conjunto das classes de equivalência
módulo U por
[v] + [w] := [v + w] ,
x [v] := [xv] .
Com estas operações, o conjunto das classes de equivalência módulo U torna-se um espaço vetorial, chamado
o espaço quociente de V por U e denotado por
V /U.

Verifique que as operações estão bem definidas e que V /U satisfaz as propriedades de um espaço vetorial.
2.15 Exemplo. Se V = R3 e U é um subespaço de dimensão 2 (isto é, um plano passando pela origem),
então as classes de equivalência de V /U são planos paralelos a U . Note que dois vetores v, w ∈ V pertencem
à mesma classe de equivalência, isto é, ao mesmo plano paralelo a U se sua diferença v − w (dada pela regra
do triângulo) é paralela ao plano U .
2.16 Teorema. Seja

V =U ⊕Z
e seja
π: V −→ V /U
v 7→ [v]
a aplicação quociente.
Então π é um lineomorfismo e a restrição
π|Z : Z −→ V /U
é um isomorfismo canônico (isto é, independe da escolha de bases).

Em particular, se tem V dimensão finita, então o espaço quociente V /U tem dimensão finita e
dim (V /U ) = dim V − dim U.
Prova: A linearidade de π segue de
π (xv + yw) = [xv + yw]

= [xv] + [yw]
= x [v] + y [w]
= xπ (v) + yπ (w) .
Para ver que π|Z é injetiva, note que

π (v) = 0
é equivalente a
[v] = [0] = U
o que significa que v ∈ U . Então v ∈ U ∩ Z = {0}, logo v = 0.
Para ver que π|Z é sobrejetiva, seja [v] ∈ V /U qualquer. Temos v = w + z, com w ∈ U e z ∈ Z. Daı́,
v − z = w, ou seja, [v] = [z], donde [v] = π (z).
Como V /U é isomorfo a Z e V = U ⊕ Z, temos, respectivamente,
dim (V /U ) = dim Z,
dim V = dim Z + dim U,
donde segue a última afirmativa.

Outra maneira de definir o isomorfismo canônico é através da propriedade de que ele é o único lineomorfismo
que faz o diagrama seguinte virar comutativo:
ı
Z ,→ V
& ↓π
V /U
2.17 Exemplo. No Exemplo 2.15, Z é qualquer reta passando pela origem não paralela a U .
2.3 Teorema do Núcleo e da Imagem

2.18 Proposição. Seja T : V −→ W um lineomorfismo.
Se U é um subespaço de V , então T (U ) é um subespaço de W .
Reciprocamente, se Z é um subespaço de W , então T −1 (Z) é um subespaço de V .
Prova: Como 0 ∈ U , temos T (U ) 6= ∅. Sejam w1 , w2 ∈ T (U ) e u1 , u2 ∈ U tais que
T (u1 ) = w1 ,
T (u2 ) = w2 .
Para todos x, y ∈ K segue que
xw1 + yw2 = xT (u1 ) + yT (u2 ) = T (xu1 + yu2 ) ,
e como xu1 + yu2 ∈ U , concluı́mos que xw1 + yw2 ∈ T (U ).

Reciprocamente, sejam v1 , v2 ∈ T −1 (Z). Então
T (v1 ) =: z1 ∈ Z,
T (v2 ) =: z2 ∈ Z.
Para todos x, y ∈ K segue que
T (xv1 + yv2 ) = xT (v1 ) + yT (v2 ) = xz1 + yz2 ∈ Z,
logo concluı́mos que xv1 + βv2 ∈ T −1 (Z).

Segue deste resultado que o conjunto imagem im T de um lineomorfismo T : V −→ W entre espaços vetoriais
é um subespaço de W e que o conjunto T −1 (0) é um subespaço de V ; este último é chamado o núcleo do
lineomorfismo T e denotado ker T .
2.19 Teorema (Teorema do Núcleo e da Imagem). Seja T : V −→ W um lineomorfismo.
Os subespaços
V / ker T e im T
são isomorfos.
Em particular, se V tem dimensão finita,
dim V = dim (ker T ) + dim (im T ) .
Prova 1: Definimos o isomorfismo φ : V / ker T −→ im T da maneira mais natural possı́vel
φ : V / ker T −→ im T
[v] 7−→ T (v)
Observe que φ está bem definido, porque se [v] = [w], então v − w ∈ ker T , isto é, T (v − w) = 0, donde
T v = T w. Além disso, φ é linear porque
φ (x [v] + y [w]) = φ ([xv + yw])

= T (xv + yw)
= xT (v) + yT (w)
= xφ ([v]) + yφ ([w]) .
φ é injetivo porque se φ ([v]) = T (v) = 0, então v ∈ ker T , logo [v] = 0 em V / ker T . Finalmente, φ é
sobrejetivo, porque dado w ∈ im T , temos w = T v para algum v ∈ V , logo w = φ ([v]).
Prova 2: Embora a segunda afirmativa decorra da primeira e do Teorema 2.16, já que
dim (im T ) = dim (V / ker T ) = dim V − dim (ker T ) ,
vamos dar-lhe uma demonstração independente, já que ela é a mais freqüentemente usada nas aplicações e
não necessita da introdução do conceito de espaço quociente.
Seja {e1 , . . . , ek } uma base para ker T e complete este conjunto LI até uma base {e1 , . . . , ek , ek+1 , . . . , en }
para V . Afirmamos que
B = {T ek+1 , . . . , T en }
é uma base para im T . De fato, dado
n
X
v= xi ei ,
i=1
temos
n
X
Tv = xi T ei ,
i=k+1
já que T e1 = . . . = T ek = 0, portanto B gera im T . Para provar que B é LI, suponha que
n
X
xi T ei = 0.
i=k+1
Então, !
n
X
i
T x ei = 0,
i=k+1
n
xi ei ∈ ker T . Como a interseção entre os subespaços ker T e hek+1 , . . . , en i é o vetor
P
o que implica que
i=k+1
n
xi ei = 0 e portanto xk+1 = . . . = xn = 0. Em particular,
P
nulo, por construção, segue que
i=k+1
dim V = dim (ker T ) + dim (im T ) .

Observe que o isomorfismo φ definido na demonstração do teorema torna o diagrama abaixo comutativo:
T
V −→ im T
↓π %
φ
V / ker T
2.20 Corolário. Sejam V e W espaços vetoriais com a mesma dimensão. Então um lineomorfismo T :
V −→ W é injetivo se e somente se ele é sobrejetivo.
Prova: Pois
dim W = dim V = dim (ker T ) + dim (im T ) ,
logo dim (ker T ) = 0 se e somente se dim (im T ) = dim W .
2.4 Representações Matriciais de Morfismos Lineares

Seja T ∈ Hom (V, W ) um lineomorfismo entre espaços vetoriais de dimensão finita. Escolha bases
BV = {e1 , . . . , en } ,
BW = {e01 , . . . , e0m }
para V e W , respectivamente. Então, cada vetor v ∈ V se escreve

n
X
v= v j ej ,
j=1
donde  
n
X n
X
Tv = T  v j ej  = v j T (ej ) .
j=1 j=1
Escreva os vetores T e1 , . . . , T en em relação à base BW na forma
m
X
T (ej ) = Aij e0i ,
i=1
isto é, na forma de matriz coluna:

A1j
 
T (ej ) =  ...  = Aj .
 
Amj
Em outras palavras, as colunas de A são dadas por
Aj = [T (ej )]BW .

A matriz A = Aij m×n é chamada a representação matricial do lineomorfismo T com relação às bases
BV e BW . Esta representação de T também será denotada por
A = [T ]BV ,BW .
No caso em que V = W e T ∈ Hom (V ) é um operador linear, se B é uma base de V podemos denotar o

representante matricial de T com relação à base B simplesmente por
A = [T ]B
e vale
[T v]B = [T ]B [v]B .
2.21 Teorema. Sejam V , W e Z espaços vetoriais de dimensão finita com bases
BV = {e1 , . . . , en } ,
BW = {e01 , . . . , e0m } ,
BW = e001 , . . . , e00p ,

respectivamente. Sejam
T : V −→ W,
S : W −→ Z,
morfismos lineares. Então
[S ◦ T ]BV ,BZ = [S]BW ,BZ [T ]BV ,BW .
Em particular, se V = W = Z e BV = BW = BZ = B, então
[S ◦ T ]B = [S]B [T ]B .
Prova: Sejam
[T ]BV ,BW = Am×n ,

[S]BW ,BZ = Bp×m .
Temos
m
! m
X X
(S ◦ T ) (ej ) = S [T (ej )] = S Aij e0i = Aij S (e0i )
i=1 i=1
p p
m m
!
X X X X
= Aij Bik e00k = Bik Aij e00k
i=1 k=1 k=1 i=1
p
X k
= (BA)j e00k .
k=1
2.5 A Álgebra dos Operados Lineares

2.22 Definição. Hom (V ) com o produto entre dois operadores lineares T, S definido por
TS = T ◦ S
é uma álgebra associativa (pois a composição de funções é associativa), não comutativa se dim V > 2
(exercı́cio) e com identidade (o operador identidade).
2.23 Definição. Um morfismo entre álgebras (V, ∗) e (W, ·) é um lineomorfismo φ : V −→ W que
preserva o produto, isto é,
φ (v ∗ w) = φ (v) · φ (w)
Um morfismo entre álgebras com identidade também preserva a identidade, ou seja,
φ (1V ) = 1W .

Em outras palavras, um morfismo entre álgebras preserva as duas estruturas que caracterizam uma álgebra:
a estrutura linear e o produto entre vetores.
2.24 Corolário. Fixe bases BV e BW para os K-espaços vetoriais V e W , respectivamente, com dim V = n
e dim W = m. Então a aplicação
Φ : Hom (V, W ) −→ Mm×n (K)
definida por
T 7→ [T ]BV ,BW
é um isomofismo entre espaços vetoriais. Em particular,
dim Hom (V, W ) = dim V dim W.
Se V = W , então Φ é um isomorfismo entre álgebras lineares com identidade.

Prova: Verificar que Φ é um isomorfismo entre espaços vetoriais é deixado como exercı́cio. O fato que Φ
preserva o produto segue do Teorema 2.21 e é fácil verificar que Φ leva a aplicação identidade na matriz
identidade.
2.25 Teorema. Sejam B,B0 duas bases para o espaço vetorial V e PB→B0 a matriz de mudança de base de
B para B0 . Se T ∈ Hom (V ) é um operador linear, então
[T ]B0 = PB→B0 [T ]B PB0 →B .
Em outras palavras, se P = PB→B0 , então

[T ]B0 = P [T ]B P −1 .
Prova: Pelo Teorema 1.50, para todo vetor v ∈ V vale
[T ]B0 [v]B0 = [T v]B0
= PB→B0 [T v]B
= PB→B0 [T ]B [v]B
= PB→B0 [T ]B PB0 →B [v]B0
logo
[T ]B0 = P [T ]B P −1 .

Observe que a matriz P = PB→B0 nada mais é que a matriz que representa o lineomorfismo U que leva
a base B0 na base B em relação à base B0 :
U e0i = ei ,
pois
Pi = [ei ]B0 = [U e0i ]B0 .
Em outras palavras,
PB→B0 = [U ]B0 .
Consequentemente,
−1
P −1 = [U ]B0 = U −1 B .

Assim, o resultado do teorema anterior também pode ser expresso na forma
−1
[T ]B0 = [U ]B0 [T ]B [U ]B0 .
2.26 Definição. Sejam A, B ∈ Mn (K) duas matrizes quadradas. Dizemos que A e B são semelhantes se
existe uma matriz invertı́vel P ∈ Mn (K) tal que
B = P −1 AP.

Segue do Teorema 2.25 que duas matrizes são semelhantes se em um K-espaço vetorial elas representam o
mesmo lineomorfismo em relação a duas bases (possivelmente) distintas. Observe que similaridade é uma
relação de equivalência em Mn (K).
Podemos dizer mais: se dois operadores lineares distintos possuem a mesma matriz em relação a bases
diferentes, então eles diferem apenas por conjugação de um isomorfismo, como provado a seguir.
2.27 Teorema. Sejam V um espaço vetorial de dimensão finita e T, S ∈ Hom (V ) operadores lineares.
Existem bases B, B0 de V tais que
[T ]B = [S]B0
se e somente se existe um operador linear U ∈ Hom (V ) tal que
T = U SU −1 .
Solução: Suponha que existem bases
B = {e1 , . . . , en } ,
B0 = {e01 , . . . , e0n } ,
de V tais que
[T ]B = [S]B0 =: A.
Defina U ∈ Hom (V ) por
U e0i = ei .
Temos
U SU −1 ei = U Se0i
 
X n
=U Aji e0i 
j=1
n
X
= Aji U (e0i )
j=1
Xn
= Aji ei
j=1
= T ei ,
de modo que
U SU −1 = T.
Reciprocamente, suponha que exista U ∈ Hom (V ) tal que
T = U SU −1 .
Dada uma base de V

B0 = {e01 , . . . , e0n } ,
seja
A := [S]B0
e defina outra base de V
B = {e1 , . . . , en }
por
ei = U e0i .
Então,
T ei = U SU −1 ei
= U Se0i
 
X n
=U Aji e0i 
j=1
n
X
= Aji U (e0i )
j=1
n
X
= Aji ei .
j=1
de modo que
A = [T ]B .

2.28 Teorema (Forma Canônica de um Morfismo Linear). Sejam V, W espaços vetoriais de dimensão
finita com
dim V = n,
dim W = m,
e T ∈ Hom (V, W ). Então existem bases BV , BW tais que [T ]BV ,BW tem a forma em blocos

I 0
[T ]BV ,BW = .
0 0
Mais precisamente,
Ir 0r×(n−r)
[T ]BV ,BW = ,
0(m−r)×r 0(m−r)×(n−r)
onde r = dim im T .
Prova: Pelo Teorema do Núcleo e da Imagem,
dim ker T = n − r.
Seja
Bker T = {er+1 , . . . , en }
uma base para o núcleo de T e
BV = {e1 , . . . , er , er+1 , . . . , en }
o seu completamento até uma base de V . Então
Bim T = {T (e1 ) , . . . , T (er )}
é uma base para im T como vimos na demonstração do Teorema 2.19.

Denotando
fi = T (ei ) para i = 1, . . . , r,
completamos Bim T até uma base
BW = {f1 , . . . , fr , fr+1 , . . . , fn }
para W . Segue que
T (e1 ) = f1 ,
..
.
T (er ) = fr ,
T (er+1 ) = 0,
..
.
T (en ) = 0,
donde segue o resultado.
2.6 Álgebras de Lie Mn (K) e Hom (V )

2.29 Definição. Uma álgebra de Lie é uma álgebra com um produto de vetores chamado colchete de
Lie, denotado por [·, ·], que satisfaz
(i) Anticomutatividade:
[v, w] = − [w, v] .
(ii) Identidade de Jacobi:

[u, [v, w]] + [v, [w, u]] + [w, [u, v]] = 0.

A anticomutatividade, quando K é um corpo com caracterı́stica zero implica que
[v, v] = 0.
Observe que a identidade de Jacobi é uma identidade cı́clica que está no lugar da associatividade. De fato,
o colchete de Lie não é em geral associativo. A associatividade de [, ] é equivalente a
[u, [v, w]] = [[u, v] , w] ,
mas isso implicaria pela identidade de Jacobi que
[[u, v] , w] + [v, [w, u]] + [w, [u, v]] = 0,
e, como o colchete de Lie é anticomutativo, o primeiro termo se cancelaria com o terceiro, restando
[v, [w, u]] = 0

para todos v, w, u, o que em geral não é válido.

Observe também que uma álgebra de Lie V sobre K não trivial não pode ter uma identidade, isto é, um
vetor 1 ∈ V tal que
[1, v] = [v, 1] = v,
se K tem caracterı́stica maior que 2, por causa da anticomutatividade:
[1, v] = − [v, 1]
implicaria
v = −v
e isso só vale em um espaço vetorial sobre Z2 . Em geral, a identidade de Jacobi proibe que uma álgebra
de Lie não trivial sobre qualquer corpo possua sequer identidades laterais. Suponha que (V, [·, ·]) seja uma
álgebra de Lie e que 1 ∈ V é uma identidade à esquerda, isto é,
[1, v] = v
para todo v ∈ V . Pela identidade de Jacobi, para todos v, w ∈ V vale
[1, [v, w]] + [v, [w, 1]] + [w, [1, v]] = 0,
donde
[v, w] − [v, w] + [w, v] = 0,
e daı́
[w, v] = 0.
3
2.30 Exemplo. R com o produto vetorial é uma álgebra de Lie (exercı́cio). Note que em geral v×(w × u) 6=
0.
2.31 Proposição. Se V é uma álgebra com produto associativo ∗, então
[v, w] = v ∗ w − w ∗ v
define um colchete de Lie em V .

Portanto, se V é uma álgebra associativa, V possui naturalmente uma estrutura adicional induzida de
álgebra de Lie.
Prova: Claramente a anticomutatividade é satisfeita. Para provar a identidade de Jacobi observe que temos
(omitimos o sinal ∗ para facilitar a visualização)
[u, [v, w]] = u [v, w] − [v, w] u
= u (vw − wv) − (vw − wv) u
= u (vw) − u (wv) − (vw) u + (wv) u,
[v, [w, u]] = v (wu) − v (uw) − (wu) v + (uw) v.
[w, [u, v]] = w (uv) − w (vu) − (uv) w + (vu) w.
A associatividade do produto ∗ permite cancelar os termos na soma (abaixo, os termos que se cancelam
estão identificados pelo mesmo superescrito)
[u, [v, w]] + [v, [w, u]] + [w, [u, v]]
= uvw1 − uwv 2 − vwu3 + wvu4
+ vwu3 − vuw5 − wuv 6 + uwv 2
+ wuv 6 − wvu4 − uvw1 + vuw5 .

Assim, a existência de um produto associativo em V automaticamente permite definir um colchete de Lie
em V e V possui duas estruturas de álgebra: uma álgebra associativa e sua álgebra de Lie derivada desta.
Note que se a álgebra ∗ de V for comutativa, então a álgebra de Lie derivada é trivial:
[v, w] = v ∗ w − w ∗ v = v ∗ w − v ∗ w = 0
2.32 Definição. Definimos o colchete de Lie em Mn (K) por
[A, B] = AB − BA.
Analogamente, definimos o colchete de Lie em Hom (V ) por
[T, S] = T S − ST = T ◦ S − S ◦ T.

2.33 Proposição. Mn (K) e Hom (V ) munidos do produto colchete são álgebras de Lie isomorfas.
O colchete de Lie de matrizes [A, B] também é chamado de comutador, pois mede o quanto as matrizes
A, B não comutam.
2.34 Exemplo. Álgebras de Lie podem se comportar de maneiras bem diferentes. Enquanto que em R3
com o produto vetorial, todo vetor u pode ser escrito como o produto vetorial de dois outros vetores, isto é,
existem vetores v, w tais que u = v × w, isso não é verdade para Mn (K). Dada uma matriz A, se existirem
matrizes B, C tais que A = [B, C], como o traço é um funcional linear e
n n n
!
X i
X X
tr (AB) = (AB)i = Aik Bik
i=1 i=1 k=1
Xn Xn
= Aik Bik = Bik Aik
i,k=1 i,k=1
n n
! n
X X X k
= Bik Aik = (BA)k
k=1 i=1 k=1
= tr (BA) ,
segue que se A = [B, C] então

tr A = tr (BC) − tr (CB) = 0.
De fato, pode-se provar o seguinte: se V denota o subespaço vetorial gerado pelas matrizes que são
colchete de Lie de outras matrizes:
V = hC ∈ Mn (K) : C = [A, B] para A, B ∈ Mn (K)i .
então V é precisamente o subespaço W das matrizes de traço nulo:
W = {C ∈ Mn (K) : tr C = 0} .
Veja [HK], p. 107, Exercı́cio 17, para sugestões para a prova deste resultado.
2.7 Funcionais Lineares e o Espaço Dual

2.35 Definição. Seja V um espaço vetorial sobre um corpo K. Um lineomorfismo f : V −→ K é chamado
um funcional linear.
O espaço dos funcionais lineares L (V, K) é denotado por V ∗ e chamado o espaço dual de V .
Observe que pelo Corolário 2.24, como dim K = 1, segue que
dim V ∗ = dim V.
2.36 Definição. Sejam V um espaço vetorial sobre um corpo K e B = {e1 , . . . , en } uma base para V .
A base dual de B é a base B∗ = {e∗1 , . . . , e∗n } para V ∗ definida por
e∗i (ej ) = δij .
2.37 Proposição. B∗ = {e∗1 , . . . , e∗n } é uma base para V ∗ .

De fato, para todo funcional linear f ∈ V ∗ nós temos
n
X
f= f (ei ) e∗i ,
i=1
ou seja, as coordenadas de f na base dual são f (e1 ) , . . . , f (en ), e para todo vetor v ∈ V nós temos
n
X
v= e∗i (v) ei ,
i=1
ou seja, as coordenadas de v são e∗1 (v) , . . . , e∗n (v). Portanto, os funcionais e∗i são simplesmente as
funções coordenadas.
Prova: B∗ é de fato um conjunto linearmente independente pois, se

n
X
xi e∗i = 0,
i=1
então !
n
X n
X n
X
xj = xi δij = xi [e∗i (ej )] = xi e∗i (ej ) = 0 (xj ) = 0
i=1 i=1 i=1
para todo j.
Para provar que B∗ gera V ∗ , seja f ∈ V ∗ . Então, para todo j vale
n n
" n #
X X X
f (ej ) = f (ei ) δij = f (ei ) [e∗i (ej )] = f (ei ) e∗i (ej ) ,
i=1 i=1 i=1
e como
n
X
f (ei ) e∗i
i=1
define um funcional linear (combinação linear dos funcionais lineares e∗i ) por unicidade de um lineomorfismo
definido em uma base, segue a primeira fórmula do enunciado.
A segunda fórmula do enunciado segue do fato de que se
n
X
v= xi ei ,
i=1
então por linearidade e definição da base dual

n
! n n
X X X
e∗j (v) = e∗j i
x ei = xi e∗j (ei ) = xi δji = xj .
i=1 i=1 i=1

2.38 Definição. O espaço dos funcionais lineares L (V ∗ , K) definidos no dual de V é denotado por V ∗∗ e
chamado o bidual de V .
2.39 Teorema. Seja V um espaço vetorial de dimensão finita. Então V e V ∗∗ são canonicamente isomorfos.
Mais precisamente, o isomorfismo canônico Φ : V −→ V ∗∗ é definido por
Φ (v) = Lv ,
onde Lv ∈ V ∗∗ é definido por

Lv (f ) = f (v) .
Prova: O funcional Lv é de fato linear, pois
Lv (xf + yg) = (xf + yg) (v)

= xf (v) + yg (v)
= xLv (f ) + yLv (g) .
Φ é linear porque
Φ (xv + yw) = Lxv+yw = xLv + yLw
pois para todo f ∈ V ∗ temos
Lxv+yw (f ) = f (xv + yw)

= xf (v) + yf (w)
= xLv (f ) + yLw (f )
= (xLv + yLw ) (f ) .
Φ é injetivo porque Lv = 0 se e somente se f (v) = 0 para todo f , o que ocorre se e somente se v é o

vetor nulo, pois se v não é o vetor nulo existe pelo menos um funcional que leva v em um escalar não-nulo:
basta tomar o funcional coordenada apropriado.
A sobrejetividade de Φ decorre da sua injetividade e do fato que
∗
dim V = dim V ∗ = dim (V ∗ ) = dim V ∗∗ .

2.40 Corolário. Seja V um espaço vetorial de dimensão finita. Se L ∈ V ∗∗ então existe um único vetor
v ∈ V tal que
L (f ) = f (v)
para todo f ∈ V ∗ .
2.41 Corolário. Seja V um espaço vetorial de dimensão finita. Toda base para V ∗ é o dual de alguma base
para V .
Prova: Seja B∗ = {f1 , . . . , fn } uma base qualquer para V ∗ . Seja B∗∗ = {L1 , . . . , Ln } sua base dual em V ∗∗ ,
ou seja,
Li (fj ) = δij .
Usando o corolário anterior, sejam e1 , . . . , en ∈ V os únicos vetores tais que
Li (f ) = f (ei )
para todo f ∈ V ∗ , para todo i. Usando a notação do Teorema 2.39, segue que o isomorfismo Φ leva B em
B∗∗ , isto é,
Li = Lei ,
e como isomorfismos levam bases em bases, concluı́mos que B = {e1 , . . . , en } é uma base para V . Daı́,
fj (ei ) = Li (fj ) = δij ,
de modo que fj = e∗j e B∗ é a base dual de B.

Denotaremos
v ∗∗ = Lv .
Assim,
v ∗∗ (f ) = f (v) .
Também é frequente denotar o funcional dual v ∗∗ simplesmente por v, identificando V com V ∗∗ , já que o
isomorfismo dado pelo Teorema 2.39 é natural. Desta maneira, podemos escrever
v (f ) = f (v) .
2.8 O Morfismo Dual

2.42 Teorema. Sejam V, W espaços vetoriais. Para cada lineomorfismo
T : V −→ W
existe um único lineomorfismo

T ∗ : W ∗ −→ V ∗
tal que
T ∗g = g ◦ T
para todo g ∈ W ∗ .
Prova: De fato, se g é um funcional linear em W , a fórmula
f = g ◦ T,
define f um funcional linear em V , composta de dois morfismos lineares, como no diagrama comutativo
abaixo:
f
V −→ R
↓T %
g
W
Além disso, T ∗ é linear porque
[T ∗ (xg + yh)] (v) = (xg + yh) (T v)

= xg (T v) + yh (T v)
= x (T ∗ g) (v) + y (T ∗ h) (v)
= [x (T ∗ g) + y (T ∗ h)] (v)
para todo v ∈ V .
2.8.1 Núcleo e Imagem do Morfismo Dual

2.43 Definição. Seja V um espaço vetorial e U ⊂ V um subespaço. O anulador de U é o subespaço U 0
do espaço dual V ∗ constituı́do pelos funcionais lineares que anulam U , isto é,
U 0 = {f ∈ V ∗ : f |U = 0} .

Em outras palavras,
U 0 = {f ∈ V ∗ : f (u) = 0 para todo u ∈ U } .
Note que
V 0 = 0,
00 = V ∗ .
2.44 Proposição. Se V é um espaço vetorial de dimensão finita e U ⊂ V é um subespaço, então
dim U + dim U 0 = dim V.
Prova: Seja ı : U −→ V o lineomorfismo inclusão e considere o seu dual ı∗ : V ∗ −→ U ∗ . Note que
ker ı∗ = U 0 ,
im ı∗ = U ∗ ,
como é fácil ver pelo diagrama comutativo:

f |U
U −→ R
↓ı %
f
V
Pelo Teorema do Núcleo e da Imagem,
dim im ı∗ + dim ker ı∗ = dim V ∗ ,
donde
dim U ∗ + dim U 0 = dim V ∗ .
Como
dim U ∗ = dim U,
dim V ∗ = dim V,
segue o resultado.
2.45 Teorema. Sejam V , W espaços vetoriais de dimensão finita e T ∈ Hom (V, W ). Então valem
(i)
0
ker T ∗ = (im T ) .
0
im T ∗ = (ker T ) .
(ii)
dim ker T ∗ = dim ker T + (dim W − dim V ) .
dim im T ∗ = dim im T.
Em particular, se V = W e T ∈ Hom (V ) é um operador linear, vale
dim ker T ∗ = dim ker T.

dim im T ∗ = dim im T.
0
Prova: (i) ker T ∗ ⊂ (im T ) : se g ∈ ker T ∗ , então
0 = T ∗ (g) = g ◦ T
0 0
e portanto g ∈ (im T ) . A recı́proca (im T ) ⊂ ker T ∗ segue da mesma equação.
0
im T ∗ ⊂ (ker T ) : se f ∈ im T ∗ , então existe g ∈ W ∗ tal que
f = T ∗ (g) = g ◦ T.
Se v ∈ ker T , então
f (v) = g (T (v)) = g (0) = 0,
0
de modo que f ∈ (ker T ) . Para provar que eles são iguais, basta mostrar que eles tem a mesma dimensão.
Pelo item (ii) a seguir, cuja demonstração independende da equação que queremos demonstrar (ele depende
da primeira equação do presente item), pelo Teorema do Núcleo e da Imagem e pela Proposição 2.44 temos
dim im T ∗ = dim im T
= dim V − dim ker T
0
= dim (ker T ) .
(ii) Temos pela primeira equação do item (i), pela Proposição 2.44 e pelo Teorema do Núcleo e da Imagem,
0
dim ker T ∗ = dim (im T )
= dim W − dim im T
= dim W − (dim V − dim ker T )
= dim ker T + dim W − dim V.
De modo semelhante, temos pelo Teorema do Núcleo e da Imagem, novamente pela primeira equação do
item (i) e pela Proposição 2.44
dim im T ∗ = dim W ∗ − dim ker T ∗

0
= dim W − dim (im T )
= dim im T.

2.46 Corolário. T é sobrejetivo se e somente se T ∗ é injetivo.

T é injetivo se e somente se T ∗ é sobrejetivo.
Prova: Pela primeira equação do item (i) do teorema anterior,
T é sobrejetivo ⇔ im T = W
0
⇔ (im T ) = 0
⇔ ker T ∗ = 0
⇔ T ∗ é injetivo.
Pela segunda equação do item (i) do teorema anterior
T é injetivo ⇔ ker T = 0
0
⇔ (ker T ) = V ∗
⇔ im T = V ∗∗
⇔ T ∗ é sobrejetivo.
2.8.2 Representação Matricial do Morfismo Dual

2.47 Definição. Seja T : V −→ W um lineomorfismo. O dual de T é o lineomorfismo T ∗ : W ∗ −→ V ∗
definido no Teorema 2.42.
Isso significa que o funtor dual (isto é, o funtor que associa a cada espaço vetorial o seu espaço dual) é um
funtor contravariante na categoria dos espaços vetoriais:
T
V −→ W
↓ ↓
T∗
V∗ ←− W∗
2.48 Teorema. Sejam V , W espaços vetoriais de dimensão finita. Sejam BV e BW bases para V e W ,
respectivamente e B∗V e B∗W suas respectivas bases duais. Seja T : V −→ W um lineomorfismo. Se
A = [T ]BV ,BW
é a matriz de T com respeito às bases BV e BW , então a matriz do morfismo dual T ∗ com respeito às
bases duais B∗W e B∗V é a transposta de A, isto é,
At = [T ∗ ]B∗ ∗ .
W ,BV
Prova: Sejam
BV = {v1 , . . . , vn } , BW = {w1 , . . . , wn } ,
B∗V = {v1∗ , . . . , vn∗ } , B∗W = {w1∗ , . . . , wn∗ } .
Denote por B a matriz do morfismo dual em relação às bases duais. Então, por definição,
m
X
T vj = Aij wi , j = 1, . . . , n,
i=1
Xn
T ∗ wj∗ = Bji vi∗ , j = 1, . . . , m.
i=1
Daı́, de um lado
m
! m m
X X X
∗
wj∗ wj∗ wj∗ Aki wk Aki wj∗ (wk ) = Aki δjk = Aji ,

T (vi ) = (T vi ) = =
k=1 k=1 k=1
e por outro lado

n
! n n
X X X
∗
wj∗ Bjk vk∗ Bjk vk∗ (vi ) = Bjk δki = Bji ,

T (vi ) = (vi ) =
k=1 k=1 k=1
logo
i
Bji = Aji = At j
.

2.49 Definição. Seja A ∈ Mm×n (K).
A dimensão do subespaço em Kn gerado pelas linhas de A é chamado o posto de A e denotado por
rank A.
A dimensão do subespaço em Kn solução do sistema homogêneo AX = 0 é chamado a nulidade de A e
denotado por nul A.
2.50 Corolário. Seja A ∈ Mm×n (K). Então
rank A = rank At .
Em particular, se A ∈ Mn (K), vale também
nul A = nul At .
Prova: Se T : Kn −→ Km denota o lineomorfismo representado por A em relação às bases canônicas de

Kn e Km , então o subespaço gerado pelas linhas de A é exatamente o subespaço im T . Como a transposta
∗ ∗
At é a representação matricial do morfismo dual T ∗ em relação às bases canônicas duais de (Km ) e (Kn ) ,
segue que o subespaço gerado pelas colunas de A, que é o subespaço gerado pelas linhas da transposta At ,
é exatamente o subespaço im T ∗ . Pelo Teorema 2.45 (ii), temos dim T = dim T ∗ .
Como
nul A = dim ker T,

nul At = dim ker T ∗ ,
a segunda afirmação segue da primeira e do Teorema do Núcleo e da Imagem.

Capı́tulo 3
Determinantes
3.1 Definição
Definiremos a função determinante a partir das propriedades que queremos que ela satisfaça. Provaremos
depois que de fato existe uma função que satisfaz estas propriedades.
3.1 Definição. Identificaremos o espaço das matrizes quadradas Mn (K) com o espaço Kn × . . . × Kn ,
identificando colunas de uma matriz com vetores de Kn . Uma função determinante é uma função
det : Kn × . . . × Kn −→ K
satisfazendo as seguintes propriedades:

(D1) det é um funcional n-linear:
det (A1 , . . . , xAi + yA0i , . . . , An )

= x det (A1 , . . . , Ai , . . . , An ) + y det (A1 , . . . , A0i , . . . , An )
para todos i = 1, . . . , n, A1 , . . . , An , A01 , . . . , A0n ∈ Kn , x, y ∈ K.

(D2) det é alternada:
det (A1 , . . . , Ai , . . . , Aj , . . . , An ) = − det (A1 , . . . , Aj , . . . , Ai , . . . , An )
para todos i, j = 1, . . . , n, A1 , . . . , An ∈ Kn .
(D3)
det I = 1.

Além de escrever det A ou det (A1 , . . . , An ) para a matriz A cujas colunas são A1 , . . . , An , também usaremos
a notação mais compacta
det (xAi + yBi ) = x det (Ai ) + y det (Bi ) ,

det (Ai , Aj ) = − det (Aj , Ai ) ,
quando estiver claro do contexto que as outras colunas são mantidas fixas; em geral, em uma função k-linear
qualquer destacaremos apenas as colunas que não estiverem fixas ou que desempenharem um papel relevante
nas demonstrações.
49
3.2 Proposição. Sejam K um corpo de caracterı́stica diferente de 2 e D : Kn × . . . × Kn −→ K um funcional

n-linear.
As afirmativas seguintes são equivalentes:
(i) D é alternado, isto é, para todo par de ı́ndices i, j
D (Ai , Aj ) = −D (Aj , Ai ) .
(ii) Se Ai = Aj para algum par de ı́ndices i 6= j, então D (A1 , . . . , An ) = 0, isto é,
D (A, A) = 0
i j
(iii) Se Ai = Ai+1 para algum i, então D (A1 , . . . , An ) = 0, isto é,
D (A, A) = 0
i i+1
Prova: (i) ⇒ (ii) Pois

D (A, A) = −D (A, A)
implica
D (A, A) = 0
em um corpo com caracterı́stica zero.
(ii) ⇒ (i) Temos, representando apenas as colunas que ocupam as posições i, j,
0 = D (Ai + Aj , Ai + Aj ) (ii)
= D (Ai , Ai ) + D (Ai , Aj ) + D (Aj , Ai ) + D (Aj , Aj ) (n-linearidade)
= D (Aj , Ai ) + D (Ai , Aj ) , (ii)
logo
D (Ai , Aj ) = −D (Aj , Ai ) .
(ii) ⇒ (iii) Imediato.
(iii) ⇒ (ii) Por hipótese de indução, suponha que provamos que sempre que
Ai = Ai+j
para algum i e para todo j = 1, . . . , k vale
D (A1 , . . . , An ) = 0
(note que o caso k = 1 é precisamente (iii)). Vamos provar que isso implica que se
Ai = Ai+k+1
então D (A1 , . . . , An ) = 0 também.
De fato, representando apenas as colunas que ocupam as posições i, i + k e i + k + 1, temos
D (Ai , Ai+k , Ai+k+1 )
= D (Ai , Ai+k , Ai+k + Ai+k+1 ) − D (Ai , Ai+k , Ai+k ) (n-linearidade)
= D (Ai , Ai+k , Ai+k + Ai+k+1 ) (iii)
= D (Ai , Ai+k + Ai+k+1 , Ai+k + Ai+k+1 ) − D (Ai , Ai+k+1 , Ai+k + Ai+k+1 ) (n-linearidade)
= D (Ai , Ai+k + Ai+k+1 , Ai+k + Ai+k+1 ) (indução)
= 0. (iii)
(Observe que a hipótese de indução pôde ser usada, na passagem da antepenúltima linha para a penúltima
linha, porque no segundo termo da antepenúltima linha a (i + k)-ésima coluna é Ai+k+1 = Ai e a hipótese
de indução é válida para j = k.)
Para matrizes sobre um corpo K arbitrário, a propriedade (D2) na definição de determinante é trocada pela
condição (ii) ou (iii) da Proposição 3.2 (elas são equivalentes para quaisquer corpos), e obtemos a mesma
teoria de determinantes para corpos arbitrários.
3.2 Existência
3.3 Definição. Seja A ∈ Mn (K). O menor A (i|j) é a matriz em Mn−1 (K) obtida ao se eliminar a i-ésima
linha e a j-ésima coluna de A.
3.4 Teorema (Existência da Função Determinante). Existe pelo menos uma função determinante.
Prova: A função determinante é construı́da indutivamente. Em M1 (K) = K definimos simplesmente
det A = A11 . Em M1 (K), definimos
A11 A12

det A = det = A11 A22 − A12 A21 .
A21 A22
É fácil verificar que estas funções satisfazem as condições (D1)-(D3) da Definição 3.1.
Em geral, tendo definido uma função determinante em M1 (K) , . . . , Mn−1 (K), definimos uma função
determinante em Mn (K) através da fórmula
n
X i+j
det A = (−1) Aij det A (i|j) .
j=1
fixando algum i (por exemplo, i = 1). Esta é a chamada fórmula do determinante através da expansão em
cofatores segundo a i-ésima linha de A. Esta será uma definição recursiva do determinante. Vamos verificar
por indução que a função assim definida satisfaz as propriedades (D1)-(D3):
(D1) Sejam
A = (C1 , . . . , Ak , . . . , Cn ) ,
B = (C1 , . . . , Bk , . . . , Cn ) ,
L = (C1 , . . . , xAk + yBk , . . . , Cn ) .
Temos que provar que

det L = x det A + y det B.
Note que, com exceção da k-ésima coluna, as matrizes A, B, L possuem colunas idênticas. Temos
n
X i+j
det L = (−1) Lij det L (i|j)
j=1
n
X i+j i+k
= (−1) Lij det L (i|j) + (−1) Lik det L (i|k)
j=1
j6=k
X n
i+j i+k
Cji det L (i|j) + (−1) xAik + yBki det L (i|k) .

= (−1)
j=1
j6=k
Por hipótese de indução, o primeiro termo da última linha é

n
X n
X
i+j i+j
(−1) Cji det L (i|j) = (−1) Cji [x det A (i|j) + y det B (i|j)]
j=1 j=1
j6=k j6=k
Xn n
X
i+j i+j
=x (−1) Cji det A (i|j) + y (−1) Cji det B (i|j)
j=1 j=1
j6=k j6=k
X n X n
i+j i+j
=x (−1) Aij det A (i|j) + y (−1) Bji det B (i|j) ,
j=1 j=1
j6=k j6=k
onde na última linha usamos o fato que
Cji = Aij = Bji se j 6= k.
O segundo termo, usando o fato que
L (i|k) = A (i|k) = B (i|k) ,
é
i+k i+k i i+k i
xAik + yBki det L (i|k) = x (−1)

(−1) Ak det L (i|k) + y (−1) Bk det L (i|k)
i+k i+k
= x (−1) Aik det A (i|k) + y (−1) Bki det B (i|k) .
Portanto,
n
X n
X
i+j i+j
det L = x (−1) Aij det A (i|j) + y (−1) Bji det B (i|j)
j=1 j=1
= x det A + y det B.
(D2) Em vista da Proposição 3.2, basta provar que se A tem duas colunas adjacentes iguais então det A = 0.
Seja A = (A1 , . . . , An ) e suponha que Ak = Ak+1 . Se j 6= k e j 6= k + 1, então a matriz A (i|j) tem duas
colunas iguais, logo por hipótese de indução det A (i|j) = 0 e
i+k i+k+1
det A = (−1) Aik det A (i|k) + (−1) Aik+1 det A (i|k + 1)
i+k
Aik det A (i|k) − Aik+1 det A (i|k + 1) .

= (−1)
Como Ak = Ak+1 , temos Aik = Aik+1 e A (i|k) = A (i|k + 1), portanto det A = 0.
(D3) Se In é a matriz identidade n × n, então In (i|i) = In−1 é a matriz identidade (n − 1) × (n − 1). Logo,
n
X i+j 2i
det In = (−1) δji det In (i|j) = (−1) det In−1 = 1.
j=1

3.3 Unicidade
Para estabelecer a unicidade da função determinante e algumas de suas propriedades especiais, precisaremos
reescrever a sua definição de uma forma não recursiva. Nesta introdução, queremos apenas desenvolver a
intuição para o que virá a seguir.
 
A11 A12 A13 A14
 A21 A22 A23 A24 
 
 
 A3 A33 A34 
 1 A32 
A41 A42 A43 A44
A primeira coisa a notar é que o determinante de uma matriz pode ser descrito como sendo simplesmente
a soma de n! termos, cada um deles um produto de n elementos da matriz, cada um dos elementos deste
produto ocupando uma linha e uma coluna que nenhum outro elemento do produto ocupa, multiplicado por
um certo sinal positivo ou negativo. Por exemplo, na matriz acima destacamos o termo
A11 A32 A23 A44
e ignoramos o sinal dele por enquanto.

Em geral, para entender como estes termos são obtidos, expandimos em cofatores a partir da primeira
linha; desprezando os sinais, os termos são da forma
A1j1 det A (1|j1 )
para j1 variando entre 1 e n. Cada um dstes termos pode por sua vez ser expandido, por exemplo em
cofatores a partir da primeira linha do menor (que está na segunda linha de A), cada termo sendo da forma
(mais uma vez desprezando os sinais)
A1j1 A2j2 det A (1|j1 ) (2|j2 )
para j2 entre 2 e n; o sı́mbolo A (1|j1 ) (2|j2 ) significa que primeiro removemos a linha 1 e a coluna j1 da
matriz A e depois removemos da matriz resultante a linha 2 e a coluna j2 (contadas em relação à matriz A),
obtendo uma matriz (n − 2) × (n − 2). Continuando este processo obtemos n! termos da forma
A1j1 A2j2 A3j3 . . . Anjn
multiplicados pelo sinal +1 ou −1, dependendo de alguma forma da bijeção j : {1, . . . , n} −→ {1, . . . , n}
escolhida. Portanto o determinante é da forma
X
det A = (sign j) A1j1 . . . Anjn
n! bijeções j
onde sign j = ±1. Vamos formalizar isso melhor, descobrir como calcular o sinal de cada bijeção e prin-
cipalmente desenvolver uma boa notação na qual poderemos explicar de maneira mais clara e desenvolver
de forma mais rápida os argumentos que serão usados para provar a unicidade e demais propriedades do
determinante.
3.3.1 Grupo de Permutações

3.5 Definição. Seja I = {1, . . . , n}. Uma permutação de grau n é uma bijeção p : I −→ I.
O conjunto das permutações de grau n é denotado por Sn .
Uma permutação p pode ser representada pela matriz

1 2 ... n
p=
p1 p2 ... pn
mas a representação mais útil é a seguinte.
3.6 Definição. A matriz da permutação p é a matriz A definida por

1 se i = pj ,
Aij =
0 6 pj .
se i =
Denotaremos por An o conjunto das matrizes de permutação.
Ou seja, na coluna j da matriz da permutação p, o valor 1 é colocado na entrada da linha pj , os demais

valores da coluna sendo iguais a 0.
3.7 Definição. A permutação de grau 5

1 2 3 4 5
p=
4 2 5 3 1
tem como matriz de permutação  

0 0 0 0 1

 0 1 0 0 0 

A=
 0 0 0 1 0 

 1 0 0 0 0 
0 0 1 0 0

Note que o conjunto das matrizes de permutação An é simplesmente o conjunto das matrizes cujas entradas
em todas as linhas e colunas são 0 exceto em uma única posição em cada linha e cada coluna, em que o valor
é 1.
3.8 Definição. Se B = {e1 , . . . .en } denota a base canônica de Kn , a representação matricial da permutação
p é também a representação matricial do operador linear T : Kn −→ Kn definido por
T ej = epj
j = 1, . . . , n. T é chamado o operador da permutação p e o conjunto dos operadores de permutação será

denotado Tn .
Apesar da primeira representação matricial para permutações considerada acima tornar imediata a vi-
sualização da permutação, a segunda representação matricial é muito mais útil porque a composta de
permutações equivalerá à multiplicação das suas matrizes de permutação (ou, equivalentemente, de seus
operadores de permutação), como veremos mais adiante.
3.9 Definição. Um grupo é um conjunto G munido de uma operação binária
G × G −→ G
(g, h) 7→ gh
que satisfaz as seguintes propriedades:

(i) (Associatividade) Para todos g, h, k ∈ G vale
g (hk) = (gh) k.
(ii) (Identidade) Existe um elemento e ∈ G tal que para todo x ∈ G vale
eg = ge = g.
(iii) (Inverso) Para todo elemento g ∈ G existe um elemento g −1 ∈ G tal que
gg −1 = g −1 g = e.
Dizemos que o grupo é comutativo (ou abeliano) se
gh = hg
para todos g, h ∈ G.
3.10 Exemplo. Qualquer corpo é um grupo comutativo com relação à operação de soma e, eliminando o
zero, é um grupo comutativo com relação à operação produto.
Qualquer espaço vetorial V é um grupo comutativo com relação à operação de soma de vetores.
O conjunto das matrizes invertı́veis n × n com relação à operação usual de produto de matrizes é um
grupo, não comutativo se n > 2, chamado o grupo linear e denotado GLn (K). Ele não é um grupo com
relação ao produto colchete de Lie, porque este não é associativo.
O conjunto das matrizes de permutação An é um grupo com relação ao produto de matrizes, não co-
mutativo se n > 3. O conjunto dos operadores de permutação An é um grupo com relação ao produto de
operadores (composição), não comutativo se n > 3.
Dado um conjunto S, o conjunto de todas as bijeções de S em S sob a operação de composição de funções
é um grupo não comutativo (se S contém mais que dois elementos).
O conjunto dos operadores linear invertı́veis GL (V ) sob a operação de composição de operadores é um
grupo, não comutativo se dim V > 2.
Em particular, do penúltimo exemplo segue que:
3.11 Proposição. O conjunto Sn das permutações de grau n sob a operação de composição de permutações
é um grupo, não comutativo se n > 2.
3.12 Exemplo. Se
1 2 3 4 5 1 2 3 4 5
p= eq= ,
4 2 5 3 1 2 1 5 4 3
então
1 2 3 4 5 −1 1 2 3 4 5
qp = ep = .
4 1 3 5 2 5 2 4 1 3
Se
1 2 3 1 2 3
p= eq= ,
1 3 2 2 1 3
então

1 2 3
pq =
3 1 2

1 2 3
qp =
2 3 1

3.13 Definição. Dados dois grupos G e H, um homomorfismo entre eles é um mapa φ : G −→ H que
preserva a operação de grupo, isto é,
φ (gh) = φ (g) φ (h) .
Dizemos que φ é um isomorfismo quando φ for um homomorfismo bijetivo.

De fato, como no caso de morfismos lineares, a inversa de um homomorfismo quando estiver definida (a
imagem de um grupo sob um homomorfismo é um subgrupo, isto é, um subconjunto que é um grupo com a
operação induzida) é também um homomorfismo: dados h1 , h2 ∈ φ (G), sejam g1 , g2 ∈ G tais que
φ (g1 ) = h1 ,
φ (g2 ) = h2 ;
segue que
φ (g1 g2 ) = φ (g1 ) φ (g2 ) = h1 h2 ,
donde
φ−1 (h1 h2 ) = g1 g2 = φ−1 (h1 ) φ−1 (h2 ) .
3.14 Proposição. Os grupos Sn , An e Tn são isomorfos.
Prova: Um isomorfismo entre An e Tn é dado pela restrição do isomorfismo entre álgebras com identidade
Mn (K) e L (Kn ) a An , esquecendo a estrutura de espaço vetorial e levando em conta apenas a preservação do
produto, já que An é precisamente o conjunto das representações matriciais dos operadores em Tn (matrizes
de permutações são as representações matriciais dos operadores de permutação). O grupo Sn é isomorfo ao
grupo Tn através do isomorfismo

1 ... n e1 . . . e n
p= 7→ Tp = .
p1 . . . p n ep1 . . . epn

3.15 Corolário. A matriz de permutação da composta de duas permutações é o produto das matrizes destas
duas permutações.
3.16 Definição. Uma transposição é uma permutação τ : I −→ I que satisfaz
τi = j,
τj = i,
τk = k para todo k 6= i, j.

3.17 Exemplo. A permutação de grau 7

1 2 3 4 5 6 7
τ=
1 2 6 4 5 3 7
cuja matriz é  
1 0 0 0 0 0 0

 0 1 0 0 0 0 0 


 0 0 0 0 0 1 0 

A=
 0 0 0 1 0 0 0 


 0 0 0 0 1 0 0 

 0 0 1 0 0 0 0 
0 0 0 0 0 0 1
é uma transposição.
Note que, embora a identidade seja uma transposição e a inversa de uma transposição seja ela própria
τ −1 = τ
porque
τ 2 = id,
a composta de transposições não é uma transposição, e portanto o subconjunto das transposições não é um
subgrupo de Sn . Na realidade, provaremos na próxima seção que toda permutação pode ser decomposta
como um produto de transposições (não de forma única), o que é intuitivamente fácil de ver.
Como última observação, note que se já sabemos que τ é uma transposição, para determinar τ basta
definir o valor de τ em um ı́ndice que é transposto por τ ; no exemplo anterior, basta saber que τ3 = 6 , já
que pelo fato de τ ser uma transposição imediatamente segue que τ6 = 3 e τk = k para k 6= 3, 6.
3.3.2 Demonstração da Unicidade da Função Determinante

3.18 Lema. Se D1 , D2 são duas funções n-lineares alternadas tais que
D1 (I) = D2 (I) ,
então
D1 (A) = D2 (A)
para toda matriz de permutação A.
Prova: Seja A a matriz da permutação p. Um número finito de trocas de colunas (no máximo n − 1)
transforma a matriz A na matriz identidade: transponha o vetor e1 para a primeira coluna (se ele já não for
a primeira coluna), obtendo uma matriz A1 ; depois transponha o vetor e2 para a segunda coluna (se ele já
não for a segunda coluna), obtendo a matriz A2 e assim sucessivamente.
Mais precisamente, cada matriz Ai é a matriz de uma permutação pi ; trocar duas colunas de Ai equivale
a obter a matriz da permutação pi+1 que é o produto da permutação pi pela transposição τ que troca as
colunas Aii+1 e a coluna igual a ei+1 . De fato, se no primeiro passo
p1 = j1 6= 1,
pk1 = 1,
ou seja, o vetor e1 ocupa a coluna k1 > 1 da matriz de permutação A, consideramos a transposição τ 1

definida por τ11 = k1 , de modo que a permutação
p1 = pτ 1
satisfaz
(pτ )1 = p (τ1 ) = pk1 = 1,
e portanto a matriz A1 da permutação p1 possui o vetor e1 na primeira coluna. Por indução, se através de
multiplicar pelas transposições apropriadas obtivemos uma permutação
pi = pτ 1 . . . τ i
cuja matriz Ai possui os vetores e1 , . . . , ei nas colunas 1, . . . , i, respectivamente, se a coluna i+1 está ocupada
pelo vetor eji+1 6= ei+1 e o vetor ei+1 ocupa a coluna ki > i, isto é, a permutação pi satisfaz
pii+1 = ji+1 6= i + 1,
piki = i + 1,
i+1
consideramos a transposição τi+1 = ki , de modo que se definirmos
pi+1 = pi τ i+1
então
pi+1 i i+1 i+1
= pi τi+1

i+1 = p τ i+1
= ki = i,
e a matriz Ai+1 da permutação pi+1 possui o vetor ei+1 na coluna i + 1.
Resumindo, se forem necessárias k transposições para transformar a matriz A na matriz identidade, temos
A0 = matriz da permutação p = A,
A1 = matriz da permutação pτ 1 ,
A2 = matriz da permutação pτ 1 τ 2 ,
..
.
Ak−1 = matriz da permutação pτ 1 τ 2 . . . τ k−1 ,
Ak = matriz da permutação pτ 1 τ 2 . . . τ k−1 τ k = id
= I,
Em particular, este argumento mostra que dada uma permutação p, existem transposições τ 1 , . . . , τ k tais
que
pτ 1 . . . τ k = id .
Como a inversa de uma transposição é ela própria, concluı́mos que
p = τ k . . . τ 1,
isto é, toda permutação é um produto de transposições.

Concluı́mos que, se D é uma função n-linear alternada, então
D (A) = (−1) D (A1 )

2
= (−1) D (A2 )
= ...
k−1
= (−1) D (Ak−1 )
k
= (−1) D (I) ,
Assim, o valor de uma função n-linear alternada de qualquer matriz de permutação é caracterizado pelo
valor que ela assume na matriz identidade. Em particular,
k
D1 (A) = (−1) D1 (I) ,
k
D2 (A) = (−1) D2 (I) ,

3.19 Teorema (Unicidade da Função Determinante). Se D1 , D2 são duas funções n-lineares alternadas
tais que
D1 (I) = D2 (I) ,
então
D1 = D2 .
Em particular, existe uma única função determinante.
Prova: Sejam A1 , . . . , An ∈ Kn vetores arbitrários. Escrevendo estes vetores em termos da base canônica
de Kn :
Xn
Aj = Aij ei ,
i=1
e utilizando a n-linearidade das funções D1 e D2 , segue que

n n
!
X X
D1 (A1 , . . . , An ) = D1 Ai11 ei1 , . . . , Ainn ein
i1 =1 in =1
n
X
= Ai11 . . . Ainn D1 (ei1 , . . . , ein ) ,
i1 ,...,in =1
X n
D2 (A1 , . . . , An ) = Ai11 . . . Ainn D2 (ei1 , . . . , ein ) .
i1 ,...,in =1
Como as funções são alternadas, temos que
D1 (ei1 . . . ein ) = D2 (ei1 . . . ein ) = 0
sempre que a função i : I −→ I não for uma permutação, isto é, sempre que i for tal que ik = il para algum
par de ı́ndices k 6= l. Logo,
X p
D1 (A1 , . . . , An ) = A11 . . . Apnn D1 (ep1 . . . epn ) ,
p∈Sn
X
D2 (A1 , . . . , An ) = Ap11 . . . Apnn D2 (ep1 . . . epn ) ,
p∈Sn
e o resultado segue do lema.

3.20 Corolário. O cálculo do determinante de uma matriz pode ser feito através da expansão em cofatores
a partir de qualquer linha da matriz.
3.21 Corolário (Fatoração das Permutações). Toda permutação é um produto de transposições.
Além disso, se p = τ1 . . . τk é uma fatoração de p em um produto de transposições, então
k
det (Ap1 , . . . , Apn ) = (−1) det (A1 , . . . , An ) .
Em outras palavras, quando as posições das colunas de uma matriz são trocadas através de uma per-
mutação, o sinal do determinante não se altera se esta permutação é um número par de transposições e o
sinal muda se ela é um número ı́mpar de transposições.
Em particular, embora a fatoração de uma permutação p em transposições não seja única, o número
destas transposições é sempre par ou sempre ı́mpar.
Prova: Segue da demonstração do Lema 3.18.
3.3.3 Fórmula do Determinante através de Permutações

3.22 Definição. O sinal de uma permutação p é definido por
sign p = det A
onde A é a matriz de permutação de p.

3.23 Proposição. Se p = τ1 . . . τk é uma fatoração de p como um produto de k transposições, então
k
sign p = (−1) .
Prova: Pois se A = (ep1 , . . . , epn ), segue do Corolário 3.21 que

k k k
sign p = det (ep1 , . . . , epn ) = (−1) det (e1 , . . . , en ) = (−1) det I = (−1) .

3.24 Corolário (Fórmula do Determinante através de Permutações). Vale
X
det (A1 , . . . , An ) = (sign p) Ap11 . . . Apnn .
p∈Sn
Prova: Pela demonstração do Teorema 3.19, temos

X p
det (A1 , . . . , An ) = A11 . . . Apnn det (ep1 . . . epn ) .
p∈Sn
O resultado segue da Proposição 3.23.

3.25 Proposição. O sinal de uma permutação satisfaz as seguintes propriedades:
(i) Se id é a permutação identidade, então sign id = 1.
(ii) Se τ é uma transposição, então sign τ = −1.
(iii) Se p, q são permutações, então sign (pq) =
sign p sign q.
(iv) Se p é uma permutações, então sign p−1 = sign p.
Consequentemente,
sign : Sn −→ Z2
é um homomorfismo entre grupos.
Prova: (iii) Se p = τ1 . . . τk e q = σ1 . . . σl , então pq = τ1 . . . τk σ1 . . . σl , portanto
k+l k l
sign (pq) = (−1) = (−1) (−1) = sign p sign q.
(iv) Como vimos na demonstração do Lema 3.18, se
p = τk . . . τ1
então
p−1 = τ 1 . . . τ k ,
de modo que p e p−1 tem o mesmo número de transposições.
3.4 Propriedades do Determinante

3.26 Proposição (Determinante da Transposta).
det (At ) = det A.
Prova: Temos X
det A = (sign p) Ap11 . . . Apnn .
p∈Sn
Agora, observe que se pi = j, então i = pj−1 , logo Api i = Ajp−1 . Como sign p = sign p−1 , segue que
j
X
sign p−1 A1p−1 . . . Anp−1

det A =
1 n
p−1 ∈Sn
X
= (sign q) A1q1 . . . Anqn
q∈Sn
X q 1 qn
= (sign q) At 1
. . . At n
q∈Sn
= det At .

3.27 Corolário. O cálculo do determinante de uma matriz pode ser feito através da expansão em cofatores
a partir de qualquer coluna da matriz.
3.28 Proposição (Determinante do Produto).
det (AB) = det A det B.
Prova: Denote as colunas de A, B e AB respectivamente por Aj , Bj e (AB)j . Como

n
X
i
(AB)j = Air Bjr ,
r=1
podemos escrever
n
X
(AB)j = Bjr Ar .
r=1
Portanto, !
n
X n
X
det (AB) = det B1r Ar , . . . , Bnr Ar .
r=1 r=1
Usando a n-linearidade e alternalidade do determinante da mesma forma como no Teorema 3.19, obtemos
X p
det (AB) = B1 1 . . . Bnpn det (Ap1 , . . . , Apn )
p∈Sn
X
= (sign p) B1p1 . . . Bnpn det (A1 , . . . , An )
p∈Sn
X
= (sign p) B1p1 . . . Bnpn det A
p∈Sn
 
X
= det A  (sign p) B1p1 . . . Bnpn 
p∈Sn
= det A det B.

3.29 Corolário (Determinante da Inversa). Se A for invertı́vel, então det A 6= 0 e
1
det A−1 =

.
det A
Prova: Pois
det AA−1 = det A det A−1

e
det AA−1 = det I = 1.

3.30 Corolário. Matrizes semelhantes possuem o mesmo determinante.
Prova: Pois, se B = P −1 AP , então
1
det B = det P −1 AP = det P −1 det A det P =

det A det P = det A.
det P

Como consequência deste resultado e do fato dos representantes matriciais de um operador linear em
relação a diferentes bases serem matrizes semelhantes, podemos definir o determinante de um operador
linear:
3.31 Definição. Se T ∈ Hom (V ), definimos
det T = det A,
onde A é qualquer representante matricial de T .
3.5 Regra de Cramer e Fórmula da Inversa

Seja A uma matriz n × n e b ∈ Kn um vetor. Considere o um sistema linear
AX = b.
Suponha que
n
X
X= xj ej
j=1
seja uma solução para esta equação. Se Aj denota a j-ésima coluna da matriz A, temos
 
Xn Xn Xn
b = AX = A  xj ej  = xj Aej = x j Aj .
j=1 j=1 j=1
Denote por A [k|b] a matriz obtida de A através da substituição da k-ésima coluna de A pelo vetor b. Então
A (k|b) = (A1 , . . . , Ak−1 , b, Ak+1 , . . . , An )

 
X n
= A1 , . . . , Ak−1 , xj Aj , Ak+1 , . . . , An  ,
j=1
de modo que
 
n
X
det A (k|b) = det A1 , . . . , Ak−1 , xj Aj , Ak+1 , . . . , An 
j=1
n
X
= xj det (A1 , . . . , Ak−1 , Aj , Ak+1 , . . . , An )
j=1
= xk det (A1 , . . . , Ak−1 , Ak , Ak+1 , . . . , An )

= xk det A.
Portanto, se det A 6= 0 e existir uma solução x para o sistema Ax = b, então esta solução é única e é dada
por
det A (k|b)
xk = .
det A
Podemos dizer mais: se det A 6= 0, então a expressão acima fornece a única solução para o sistema AX = b
(veja Teorema 3.33 a seguir). Esta é a chamada regra de Cramer.
3.32 Definição. A adjunta clássica da matriz A é definida como sendo a matriz transposta da matriz de
cofatores da matriz A, isto é,
i i+j
(adj A)j = (−1) det A (j|i) .

3.33 Teorema (Fórmula da Inversa). Temos
(adj A) A = A (adj A) = (det A) I.
Em particular, se det A 6= 0, então A é invertı́vel e
adj A
A−1 = .
det A
Prova: Denote B = A [i|Aj ], isto é, a matriz B é obtida a partir da matriz A quando substituı́mos a i-ésima
coluna de A pela sua j-ésima coluna. Temos então
n
X
i i
[(adj A) A]j = (adj A)r Arj
r=1
n
X i+r
= (−1) det A (r|i) Arj
r=1
n
X i+r
= (−1) Arj det A (r|i)
r=1
n
X i+r
= (−1) Bir det B (r|i)
r=1
= det B.
Se i 6= j, a matriz B possui duas colunas iguais e det B = 0. Concluı́mos que
i
[(adj A) A]j = 0 se i 6= j.
Se i = j, então
n
X n
X
i+r i+r
(−1) Arj det A (r|i) = (−1) Ari det A (r|i)
r=1 r=1
= det A .
Em outras palavras,
i
[(adj A) A]j = (det A) δij ,
ou seja,
(adj A) A = (det A) I.
Para provar que A (adj A) = (det A) I, observe que
t
At (i|j) = A (j|i) ,
de modo que
i i+j
adj At j = (−1) det At (j|i)

j+i t
= (−1) det A (i|j)
j+i
= (−1) det A (i|j)
h ij
t
= (adj A) ,
i
ou seja, a adjunta clássica da transposta de A é a transposta da adjunta clássica de A:
t
adj (At ) = (adj A) .
Já sabemos pela primeira parte da demonstração que

adj At At = det At I,

donde
t
(adj A) At = (det A) I.
Tomando a transposta de ambos os lados, obtemos o resultado desejado.
Este resultado em conjunto com o
3.34 Corolário. Uma matriz é invertı́vel se e somente se o seu determinante é diferente de zero.
3.35 Corolário (Regra de Cramer). Se det A 6= 0, então o sistema linear AX = b tem solução única
dada por
(adj A) b
X= .
det A
ou seja,
det A [j|b]
xj = .
det A
Prova: Se AX = b, então
(adj A) AX = (adj A) b,
e pelo Teorema 3.33
(det A) X = (adj A) b.
Se det A 6= 0, temos que
(adj A) b
X= ,
det A
ou seja,
n
1 X j
xj = (adj A)i bi
det A i=1
n
1 X i+j
= (−1) bi det A (i|j)
det A i=1
1
= det A [j|b] .
det A

Capı́tulo 4
Operadores Diagonalizáveis e
Triangularizáveis
4.1 Álgebra dos Polinômios

4.1 Definição. Seja K um corpo. O espaço vetorial das sequências f : N −→ K com valores em K é
denotado por K∞ [x].
Os vetores em K∞ [x] nada mais são que sequências de K-escalares:
f = (f0 , f1 , f2 , . . .) .
(Sequências são simplesmente funções definidas no conjuntos dos números naturais.) Definimos um produto
em K∞ [x] associando a cada par de vetores f, g o vetor f g definido por
n
X
(f g)n := fi gn−i
i=0
n = 0, 1, 2, . . . Deste modo K∞ [x] torna-se uma K-álgebra associativa, comutativa e com identidade: o vetor
1 = (1, 0, 0, . . .)
é a identidade. O vetor (0, 1, 0, . . .) desempenha um papel fundamental e é denotado por x:
x := (0, 1, 0, . . .) .
Observe que
x2 = (0, 0, 1, 0, . . .) ,
x3 = (0, 0, 0, 1, 0, . . .) ,
e em geral

xn = 0, 0, 0, 0, . . . , 0, 1, 0, . . . .
n
66
Denotamos
x0 := 1.
Desta forma, um elemento f = (f0 , f1 , f2 , . . .) também pode ser denotado na forma
∞
X
f= fn xn ,
n=0
∞
e por este motivo a álgebra K [x] é também chamada a álgebra das séries formais sobre K. ∞ Observe
2
que o conjunto 1, x, x , . . . é um conjunto linearmente independente mas não é uma base para K [x], já
que um elemento genérico de K∞ [x] (uma sequência infinita) não pode ser escrito como uma combinação
linear finita de elementos deste conjunto.
4.2 Definição. A álgebra dos polinômios sobre K é o subespaço K [x] de K∞ [x] gerado por 1, x, x2 , . . .. Um
elemento de K [x] é chamado um polinômio com coeficientes em K, ou simplesmente um K-polinômio.
O grau de um polinômio f 6= 0, denotado grau f , é o inteiro n tal que fn 6= 0 e fi = 0 para todo i > n.

Na linguagem de álgebras, 1 e x geram a álgebra dos polinômios no sentido de que todo elemento da álgebra
é uma combinação linear de produtos finitos de 1 e x. Ou seja, todo polinômio f ∈ K [x] se escreve na forma
f = f0 + f1 x + f2 x2 + . . . + fn xn .
Os escalares f0 , f1 , f2 , . . . , fn ∈ K são chamados os coeficientes do polinômio f . Um polinômio f de grau

n é chamado um polinômio mônico se fn = 1 e um polinômio escalar se fn = 0 para todo n > 0.
4.3 Lema. Sejam
n
X m
X
i
f= fi x e g= gj xj
i=0 j=0
Então
j
n+m
! m
n X
X X X
fg = fi gj−i xj = fi gj xi+j .
j=0 i=0 i=0 j=0
4.4 Proposição. Sejam f, g polinômios não nulos sobre K. Então

(i) f g é um polinômio não-nulo.
(ii)
grau (f g) = grau f + grau g.
(iii) Se f, g são mônicos, então f g é mônico.

(iv) f g é um polinômio escalar se e somente se f, g são polinômios escalares.
(v) Se f + g 6= 0, então
grau (f + g) 6 max (grau f, grau g) .
Prova: Suponha que f e g tem graus n e m, respectivamente, ou seja,
n
X m
X
f= fi xi e g= gi xi ,
i=0 i=0
com
fn 6= 0 e gm 6= 0.
Pelo lema anterior, se k é um natural, temos

n+m+k
X
(f g)n+m+k = fi gn+m+k−i .
i=0
Para que tenhamos

fi gm+n+k+i 6= 0,
é necessário que i 6 n (pois fi = 0 se i > n) e que n+m+k −i 6 m (pois gn+m+k−i = 0 se n+m+k −i > m),
ou seja, i > n + k. Assim, se fi gm+n+k+i 6= 0, então n + k 6 i 6 n, o que implica k = 0 e i = n. Portanto,
(f g)n+m = fn gm (4.1)
e
(f g)n+m+k = 0 se k > 0. (4.2)
As afirmações (i), (ii) e (iii) seguem destes dois fatos. A afirmação (iv) é uma consequência de (ii) e a
afirmação (v) é óbvia.
4.5 Corolário. K [x] é uma K-álgebra associativa, comutativa e com identidade.
4.6 Corolário. Sejam f, g, h polinômios sobre K tais que f 6= 0 e f g = f h. Então g = h.
Prova: O resultado segue imediatamente da Proposição 4.4 (i) pois f g = f h é equivalente a f (g − h) = 0.

4.7 Definição. Seja A uma K-álgebra com identidade e para cada elemento a ∈ A adote a convenção a0 = 1,
n
onde 1 é a identidade de A. A cada polinômio f = fi xi sobre K associamos um elemento f (a) ∈ A pela
P
i=0
regra
n
X
f (a) = fi ai .
i=0

f (a) é o que chamamos o valor do polinômio f calculado em a.
4.8 Proposição. Seja A uma K-álgebra com identidade. Sejam f, g polinômios sobre K, a ∈ A e α, β ∈ K.
Então
(i) (αf + βg) (a) = αf (a) + βg (a) .
(ii) (f g) (a) = f (a) g (a) .
Prova: Provaremos apenas (ii). Sejam
n
X m
X
f= fi xi e g= gj xj .
i=0 j=0
de modo que
n,m
X
fg = fi gj xi+j .
i,j=0
Então,
n,m
X
(f g) (a) = fi gj ai+j
i,j=0
n
! m

X X
= fi ai  gj aj 
i=0 j=0
= f (a) g (a) .

4.9 Corolário. Seja p um K-polinômio que se fatora no produto de polinômios
p = f g.
Se V é um K-espaço vetorial e T ∈ Hom (V ), então
p (T ) = f (T ) g (T ) .
Analogamente, se A ∈ Mn (K), então
p (A) = f (A) g (A) .
Em particular, se
p = (x − r1 ) . . . (x − rn ) ,
então
p (T ) = (T − r1 I) . . . (T − rn I) ,
p (A) = (A − r1 I) . . . (A − rn I) .
Prova: Segue do ı́tem (i) do teorema anterior, pois Hom (V ) e Mn (K) são ambas K-álgebras com identidade.

4.10 Lema. Sejam p, d polinômios não nulos tais que grau d 6 grau p. Então existe um polinômio q tal que
ou
p − dq = 0,
ou
grau (p − dq) < grau p.
Prova: Escreva
n−1
X
p = pn xn + pi xi ,
i=0
m−1
X
m
d = dm x + di xi ,
i=0
com
pn 6= 0 e dm 6= 0.
Então m 6 n e ou
pn
p− xn−m d = 0,
dm
ou
pn
grau p − xn−m d < grau p.
dm
Tomamos
pn
q= xn−m .
dm

4.11 Teorema (Divisão de Polinômios). Se p, d são polinômios, com d 6= 0, então existem polinômios
únicos q, r tais que
p = dq + r
com ou
r=0
ou
grau r < grau d.
Prova: Se p = 0 ou grau p < grau d, podemos tomar q = 0 e r = d.

No caso em que f 6= 0 e grau d 6 grau p, existe um polinômio q1 tal que
p − dq1 = 0
ou
grau (p − dq1 ) < grau f.
Se grau (p − dq1 ) < grau d, tomamos q = q1 e r = p − dq1 . Caso contrário, usamos novamente o lema anterior
e encontramos um polinômio q2 tal que ou
(p − dq1 ) − dq2 = p − d (q1 + q2 ) = 0
ou
grau [p − d (q1 + q2 )] < grau (p − dq1 ) .
Continuamos assim obtendo sucessivamente polinômios q1 , . . . qk até chegar o momento em que
p − d (q1 + . . . qk ) = 0
ou
grau [p − d (q1 + . . . qk )] < grau r.
Aı́ tomamos q = q1 + . . . qk .
Para provar a unicidade dos polinômios q e r, suponha que também existam outros polinômios q0, r0 tais
que
p = dq 0 + r0
com r0 = 0 ou grau r0 < grau d. Então dq + r = dq0 + r0, donde
d (q − q0) = r0 − r.
Se q 6= q0, então
grau d + grau (q − q0) = grau (r0 − r) ,
mas isso contradiz grau (r0 − r) < grau d. Portanto q = q1, o que implica r = r0.
4.12 Definição. Dados polinômios p, d com d 6= 0, se existe um polinômio q tal que p = dq, dizemos que d
é um divisor de p e que q é o quociente de p por d.
Se p = dq + r com r 6= 0, dizemos que r é o resto da divisão de p por q.
4.13 Corolário. Seja p um K-polinômio e a ∈ K. Então p é divisı́vel por x − a se e somente se p (a) = 0.
Prova: Pelo Teorema 4.11, p = (x − a) q + r, onde r é um polinômio escalar (isto é, ou r = 0 ou grau r <
grau (x − a) = 1, isto é, grau r = 0). Segue da Proposição 4.8 que
p (a) = (a − a) q (a) + r (a) = r (a) = r.
Portanto, r = 0 se e somente se p (a) = 0.

4.14 Definição. Dado um polinômio p sobre K, dizemos que a ∈ K é uma raiz de p se p (a) = 0. Se a
r
é uma raiz de p, a multiplicidade de a como uma raiz de p é o maior inteiro positivo r tal que (x − a)
divide p.
4.15 Proposição. Um K-polinômio de grau n tem no máximo n raı́zes.
Prova: Por indução em n. O resultado é obviamente verdadeiro para polinômios de grau 0 e de grau 1.
Assuma o resultado verdadeiro para polinômios de grau n − 1. Se p possui grau n e a é uma raiz de p então
p = (x − a) q
e q é um polinômio de grau n − 1, que tem no máximo n − 1 raı́zes, pela hipótese de indução. Como
p (b) = (b − a) q (b) = 0
se e somente se a = b ou b é uma raiz de q, segue o resultado.

4.16 Teorema (Teorema Fundamental da Álgebra). Todo polinômio complexo possui pelo menos uma
raiz.
4.17 Corolário. Todo polinômio complexo p pode ser fatorado, a menos de uma constante complexa, como
o produto de polinômios de grau 1, ou seja,
p = α (x − r1 ) . . . (x − rn ) .
Prova: Pelo Teorema Fundamental da Álgebra, se p tem grau n, temos
p = (x − r1 ) q1
e q1 tem grau n − 1. Podemos aplicar novamente o Teorema Fundamental da Álgebra ao polinômio q.

Procedendo desta forma, chegamos a
p = (x − r1 ) . . . (x − rn ) qn ,
com grau qn = 0, isto é, qn = α ∈ C.
4.2 Autovalores, Autovetores e Autoespaços

4.18 Definição. Seja V um K-espaço vetorial e T ∈ Hom (V ) um um operador linear. Dizemos que λ ∈ K
é um autovalor de T se existe um vetor não nulo v ∈ V tal que
T v = λv.
Se λ é um autovalor de T e v é qualquer vetor (mesmo nulo) tal que T v = λv, dizemos que v é um autovetor
de T associado a λ.
O subespaço vetorial
Vλ = {v ∈ V : T v = λv} = ker (T − λI)
dos autovetores de T associados ao autovalor λ é chamado o autoespaço de T associado a λ.

Como λ é um autovalor de T se e somente se o operador T − λI não é injetivo, segue que λ é um autovalor
de T se e somente se
det (T − λI) = 0.
4.19 Definição. O polinômio
pc (x) = det (xI − T )
é chamado o polinômio caracterı́stico de T .

O polinômio caracterı́stico de T é um polinômio mônico de grau n, como pode-se ver da fórmula para o
determinante em termos de permutações, e os autovalores de T são exatamente as raı́zes do seu polinômio
caracterı́stico (o nome polinômio caracterı́stico vem do fato de que autovalores eram também chamados
valores caracterı́sticos na terminologia antiga).
Este último fato também implica que a análise de um operador linear depende muito do corpo sobre
o qual o espaço vetorial está definido, pois se um polinômio possui raı́zes em um corpo K, estas raı́zes
podem não estar presentes em um subcorpo K0 ; assim, o mesmo operador T : V −→ V pode não possuir
autovalores quando V é considerado sobre K0 , ao invés de ser considerado sobre K. Em particular, ele pode
ser diagonalizável (conceito definido mais adiante) quando considerado sobre K, mas não quando considerado
sobre K0 .
4.20 Proposição. Um operador linear sobre um espaço de dimensão n possui no máximo n autovalores
distintos.
Prova: Pois um polinômio de grau n em K [x] possui no máximo n raı́zes.
4.21 Proposição. Um operador linear sobre um espaço vetorial complexo possui pelo menos um autovalor.
Prova: Pois todo polinômio em C [x] possui pelo menos uma raiz.
Vamos dar uma segunda demonstração deste resultado sem usar o polinômio caracterı́stico. Seja T :
V −→ V um um operador linear sobre um espaço vetorial complexo V de dimensão n. Então, dado v 6= 0, os
vetores v, T v, . . . , T n v são linearmente dependentes em V (pois constituem um conjunto com n + 1 vetores),
logo existem escalares a0 , a1 , . . . , an não todos nulos tais que
a0 v + a1 T v + . . . + an T n v = 0.
Considere o polinômio em C [z] com estes coeficientes, isto é,
a0 + a1 z + . . . + an z n .
Em C [z] este polinômio pode ser fatorado em um produto de termos lineares:
a0 + a1 z + . . . + an z n = c (z − λ1 ) . . . (z − λm )
(se an 6= 0, terı́amos exatamente n termos e c = an ). Segue que
0 = (a0 I + a1 T + . . . + an T n ) v = an (T − λ1 I) . . . (T − λm I) v.
Em particular, necessariamente temos que pelo menos algum operador T −λj I não é injetivo (pois a composta
de bijeções é uma bijeção), e neste caso λj é um autovalor para T .
4.22 Definição. O conjunto dos autovalores de T é chamado o espectro de T e será denotado por spec T .
A multiplicidade algébrica de um autovalor de T é a sua multiplicidade como raiz do polinômio
caracterı́stico, isto é, d é a multiplicidade algébrica do autovalor λ se o polinômio caracterı́stico de T se
escreve na forma
d
pc (x) = (x − λ) q (x)
e q (x) não possui λ como raiz.
De maneira análoga definimos os autovalores e o polinômio caracterı́stico de uma matriz. É claro que os
autovalores e o polinômio caracterı́stico de um operador são os autovalores e o polinômio caracterı́stico de
qualquer uma de suas representações matriciais:
4.23 Proposição. Matrizes semelhantes possuem os mesmos autovalores.
Prova: Pois se B = P −1 AP , então
det (xI − B) = det xI − P −1 AP

= det P −1 (xI − A) P

= det P −1 det (xI − A) det P

= det (xI − A) .

4.24 Exemplo. A matriz
0 −1
A=
1 0
possui o polinômio caracterı́stico

x 1
det (xI − A) = det = x2 + 1.
−1 x
Se A é considerada uma matriz sobre C, então A possui dois autovalores distintos, ±i, enquanto que
sobre R A não possui autovalores.
4.3 Operadores Diagonalizáveis

A importância do estudo de autovalores em álgebra linear está contida na próxima definição:
4.25 Definição. Dizemos que um operador linear T ∈ Hom (V ) é diagonalizável se existir uma base para
V formada por autovetores de T .
Se B = {v1 , . . . , vn } é uma base para V constituı́da de autovetores de T , isto é, se
T vi = λi vi
para i = 1, . . . , n, então a matriz de T com relação a esta base é uma matriz diagonal, com os autovalores
de T ocupando a diagonal principal da matriz:
 
λ1 0 . . . 0
 0 λ2 . . . 0 
[T ]B =  . . .
 
.. . .
 .. . . .. 
0 0 ... λn
Observe que os autovalores de T não precisam ser distintos para isso acontecer; de fato, eles podem ser todos
iguais, caso em que o operador T é um múltiplo escalar da identidade, o múltiplo escalar sendo precisamente
o único autovalor de T .
4.26 Proposição. Um conjunto de autovetores não nulos correspondentes a autovalores dois a dois distintos
é LI.
Prova: Por indução sobre o número de autovetores. Suponha o resultado provado para um conjunto de
k − 1 autovetores. Sejam λ1 , . . . , λk um conjunto de autovalores de T com λi 6= λj se i 6= j, e v1 , . . . , vk
autovetores não nulos correspondentes a estes autovalores. Suponha
k
X
xi vi = 0. (4.3)
i=1
Aplicando T a esta equação obtemos

k
X
xi T vi = 0,
i=1
donde
k
X
xi λi vi = 0. (4.4)
i=1
Por outro lado, se ao invés de aplicar T à equação (4.3) como fizemos, nós a multiplicarmos pelo autovalor
λk obtemos
X k
xi λk vi = 0. (4.5)
i=1
Subtraindo (4.5) de (4.4), obtemos
k−1
X
xi (λi − λk ) vi = 0. (4.6)
i=1
Pela hipótese de indução v1 , . . . , vk−1 são LI, logo
xi (λi − λk ) = 0
para i = 1, . . . , k − 1. Como λk − λi 6= 0 para todo i 6= k, segue que
x1 = . . . = xk−1 = 0.
Da equação (4.3) segue agora que
xk vk = 0,
logo xk = 0 também.
4.27 Corolário. Seja V um espaço vetorial de dimensão n. Se o operador linear T : V −→ V possui n
autovalores distintos, então ele é diagonalizável.
Prova: Sejam λ1 , . . . , λn os autovalores de T e v1 , . . . , vn autovetores correspondentes. Pelo resultado
anterior, {v1 , . . . , vn } é um subconjunto LI de V , logo uma base para V .
4.28 Exemplo. A matriz  
0 −1 0 0
 1 0 0 0 
A= 
 0 0 0 −1 
0 0 1 0
possui polinômio caracterı́stico
 
x 1 0 0
 −1 x 0 0 
 = x2 + 1 2 .

det (xI − A) = det 
 0 0 x 1 
0 0 −1 x
Se A é considerada uma matriz sobre C, então A possui dois autovalores distintos, ±i, enquanto que sobre
R A não possui autovalores. Apesar disso, A é diagonalizável sobre C, possuindo 4 autovetores distintos:
   
0 −i
 0   1 
 −i  ,  0  associados ao autovalor − i,
   
1 0
e    
0 i
 0   1 
 i , 0
    associados ao autovalor i

1 0

4.29 Exemplo. A matriz
0 1
A=
0 0
possui o polinômio caracterı́stico

x −1
det (xI − A) = det = x2 .
0 x
Tanto faz se A for considerada uma matriz sobre R ou sobre C, A possui apenas um autovalor e o
autoespaço associado a este autovalor tem dimensão 1, com o vetor (1, 0) sendo um autovetor associado ao
autovalor 0. Portanto, A não é diagonalizável.
4.30 Lema. Se T v = λv e p é um polinômio qualquer, então p (T ) v = p (λ) v.
4.31 Lema. Sejam T ∈ Hom (V ), λ1 , . . . , λk os autovalores distintos de T e Wi o autoespaço associado a
λi .
Se W = W1 + . . . + Wk , então
W = W1 ⊕ . . . ⊕ Wk ,
isto é, autoespaços correspondentes a autovalores distintos são LI.
Equivalentemente, se Bi é uma base para Wi , então B = {B1 , . . . , Bk } é uma base para W e
dim W = dim W1 + . . . + dim Wk .
Prova: Para provar que os autoespaços de T são LI, precisamos mostrar que dados vi ∈ Wi tais que
v1 + . . . + vk = 0,
então vi = 0 para todo i. Se p é um polinômio qualquer, temos
0 = p (T ) 0
= p (T ) (v1 + . . . + vk )
= p (T ) v1 + . . . + p (T ) vk
= p (λ1 ) v1 + . . . + p (λk ) vk .
Escolha polinômios p1 , . . . , pk tais que

pi (λj ) = δij ,
por exemplo,
Y x − λj
pi = .
λi − λj
j6=i
Então
n
X n
X
0 = pi (T ) 0 = pi (λj ) vj = δij vj = vi .
j=1 j=1

4.32 Teorema. Sejam T ∈ Hom (V ), λ1 , . . . , λk os autovalores distintos de T e Wi o autoespaço associado
a λi .
As seguintes afirmações são equivalentes:
(i) T é diagonalizável.
(ii) O polinômio caracterı́stico de T é
d1 dk
f = (x − λ1 ) . . . (x − λk )
e dim Wi = di para todo i.

(iii)
dim V = dim W1 + . . . + dim Wk .
(iv)
V = W1 ⊕ . . . ⊕ W k .
Prova: (i) ⇒ (ii) Se T é diagonalizável, então T possui uma representação matricial em blocos na forma
 
λ1 I1 0 ... 0
 0 λ 2 I2 . . . 0 
[T ]B =  .
 
. . .. 
 .. .. .. . 
0 0 ... λk Ik
em relação a alguma base B de V , onde cada bloco identidade Ii tem tamanho di . Segue imediatamente que
o polinômio caracterı́stico de T é
d1 dk
det (xI − T ) = (x − λ1 ) . . . (x − λk ) .
Como a matriz [T − λi I]B tem exatamente di zeros em sua diagonal principal, segue que dim Wi = di .
d d
(ii) ⇒ (iii) Se f = (x − λ1 ) 1 . . . (x − λk ) k , então
dim V = grau f = d1 + . . . + dk .
(iii) ⇒ (iv) Segue do lema anterior que V = W1 ⊕ . . . ⊕ Wk .
(iv) ⇒ (i) Pois V possui uma base formada por autovetores de T .
5 −6 −6
A =  −1 4 2 
3 −6 −4
2
possui o polinômio caracterı́stico det (xI − A) = (x − 2) (x − 1), com autoespaços
W1 = h(3, −1, 3)i ,
W2 = h(2, 1, 0) , (2, 0, 1)i .
Portanto, A é diagonalizável.
4.34 Exemplo. Determine se a matriz

 
6 −3 −2
B =  4 −1 −2 
10 −5 −3
é diagonalizável sobre R e sobre C. Encontre bases para os autoespaços de B.
4.4 Ideais de Polinômios

4.35 Definição. Seja K um corpo. Um ideal em K [x] é um subespaço M de K [x] tal que f g ∈ M sempre
que f ∈ K [x] e g ∈ M .
Em outras palavras, um ideal de polinômios é um subespaço vetorial de K [x] que é fechado com relação à
multplicação, não só de seus próprios elementos, mas também por outros elementos de K [x]. Ele não é uma
subálgebra de K [x] porque não precisa conter a identidade; de fato, se ele contém a identidade, ele é igual a
K [x].
4.36 Exemplo. Dado d ∈ K [x], o conjunto M = dK [x] de todos os múltiplos polinomiais de d é um ideal.
De fato, M é não-vazio pois contém d e se f, g ∈ K [x] e α, β ∈ K, então
α (df ) + β (dg) = d (αf + βg) ,

f (dg) = d (f g) .
M é chamado o ideal principal gerado por d.

4.37 Teorema. Seja K um corpo. Se M é um ideal não nulo de K [x], então existe um único polinômio
mônico d em K [x] tal que M é o ideal principal gerado por d, isto é,
M = dK [x] .
Prova: Por hipótese, M contém um polinômio não nulo. Entre todos os polinômios não nulos de M existe
um polinômio d de grau mı́nimo, que podemos assumir mônico (basta multiplicar d pelo polinômio escalar
apropriado, se necessário). Se f ∈ M , então
f = dq + r
com r = 0 ou grau r < grau d. Como d ∈ M , dq ∈ M e f − dq = r ∈ M também. Por escolha de d (não

existe polinômio não-nulo em M de grau menor que d), concluı́mos que r = 0. Portanto M = dK [x].
Se d0 fosse outro polinômio mônico em K [x] tal que M = d0 K [x], então existem polinômios não nulos
f, g tais que d = d0 f e d0 = dg. Logo, d = dgf e daı́
grau d = grau d + grau f + grau g,
donde
grau f = grau g = 0.
Como f, g são mônicos, segue que f = g = 1 e portanto d = d0 .
4.5 Polinômio Mı́nimo e o Teorema de Cayley-Hamilton

Sejam V um K-espaço vetorial de dimensão finita e T ∈ Hom (V ). Considere as primeiras n2 + 1 potências
de T : 2
I, T, T 2 , . . . , T n .
Como o espaço Hom (V ) tem dimensão n2 , estes vetores são LD, logo existem escalares a0 , a1 , . . . , an2 ∈ K
tais que
2
a0 I + a1 T + . . . + an2 T n = 0.
Em outras palavras, o polinômio
2
p = a0 + a1 x + . . . + an2 xn ∈ K [x]
anula o operador T , isto é,

p (T ) = 0.
4.38 Proposição. O conjunto dos polinômios que anulam um operador é um ideal não nulo em K [x].
Prova: Se f, g anulam T e α, β ∈ K, então
(αf + βg) (T ) = αf (T ) + βg (T ) = 0
e se f ∈ K [x] e g anula T ,
(f g) (T ) = f (T ) g (T ) = 0.

4.39 Definição. Sejam V um espaço vetorial de dimensão finita e T ∈ Hom (V ). O polinômio mı́nimo
para T é o gerador mônico do ideal dos polinômios anuladores de T .
Assim, se um polinômio anula T , ele é um múltiplo polinomial do polinômio mı́nimo.
4.40 Teorema. Os polinômios mı́nimo e caracterı́stico de um operador linear possuem as mesmas raı́zes,
exceto possivelmente por multiplicidades.
Prova: Seja p o polinômio mı́nimo de T . Provar o teorema é mostrar que p (λ) = 0 se e somente se λ é um
autovalor de T .
Se p (λ) = 0 para algum λ ∈ R, então
p = (x − λ) q,
donde
0 = p (T ) = (T − λI) q (T ) .
Como grau q < grau p, pela definição de polinômio mı́nimo não podemos ter q (T ) = 0. Seja v um vetor tal
que q (T ) v = w 6= 0. Então,
0 = (T − λI) q (T ) v = (T − λI) w
e portanto λ é um autovalor de T .
Reciprocamente, se λ é um autovalor de T , então existe v 6= 0 tal que T v = λv. Pelo Lema 4.30,
0 = p (T ) v = p (λ) v,
donde p (λ) = 0.
4.41 Corolário. Se T é diagonalizável e λ1 , . . . , λk são os seus autovalores distintos, então seu polinômio
mı́nimo é o polinômio
p = (x − λ1 ) . . . (x − λk ) .
Prova: Por definição, existe uma base para V consistindo apenas de autovetores de T , logo qualquer vetor
v ∈ V escreve-se na forma
v = v1 + . . . + vk
com vj um autovetor associado a λj . Como
p (T ) vj = (T − λ1 I) . . . (T − λk I) vj = 0
para todo j, porque (T − λj I) vj = 0 e polinômios em T comutam, segue que para todo v ∈ V temos
p (T ) v = 0.

Veremos na próxima seção que o polinômio mı́nimo de T ser um produto de fatores lineares distintos é de
fato equivalente a T ser diagonalizável.
4.42 Exemplo. Encontre o polinômio mı́nimo para a matriz
 
5 −6 −6
A =  −1 4 2 .
3 −6 −4
2
Vimos no Exemplo 4.33 que A possui o polinômio (x − 2) (x − 1) como polinômio caracterı́stico e que
A é diagonalizável. Logo seu polinômio mı́nimo é p = (x − 2) (x − 1) = x2 − 3x + 2. Em particular,
A2 − 3A + 2I = 0.
4.43 Exemplo. Encontre o polinômio mı́nimo sobre R para a matriz

0 −1
B= .
1 0
Vimos no Exemplo 4.24 que B possui o polinômio x2 + 1 como polinômio caracterı́stico e que B não é
diagonalizável sobre R, pois seu polinômio caracterı́stico não possui raı́zes reais. No entanto, sobre C, o
polinômio caracterı́stico se fatora x2 + 1 = (x + i) (x − i) e B possui dois autovalores distintos, e portanto é
diagonalizável. Assim, o polinômio mı́nimo sobre C para esta matriz é x2 + 1. Como este polinômio possui
coeficientes reais, ele também é o polinômio mı́nimo para B sobre R.
4.44 Teorema (Teorema de Cayley-Hamilton). O polinômio caracterı́stico de um operador linear anula

este operador.
Em particular, o polinômio caracterı́stico de um operador é divisı́vel pelo polinômio mı́nimo deste opera-
dor.
Prova: A demonstração será por indução sobre n = dim V , onde V é o espaço vetorial no qual o operador
linear está definido. Se n = 1, o resultado é óbvio. Como hipótese de indução, assuma o resultado válido
para qualquer operador linear definido sobre qualquer espaço vetorial de dimensão n − 1.
Seja T ∈ Hom (V ) com dim V = n. Escolha uma base B = {e1 , . . . , en } para V e seja A = [T ]B , ou seja,
n
X
T ej = Aij ei
i=1
para j = 1, . . . , n. Equivalentemente,
n
X
δji T − Aij I ei = 0.

i=1
Considere matrizes sobre a álgebra comutativa com identidade K [T ] dos polinômios em T ; em outras
palavras, matrizes sobre K [T ] possuem polinômios em T como entradas. Considere em particular a matriz
B definida por
Bji = δij T − Aji I.
Então
det B = pc (T )
onde pc é o polinômio caracterı́stico de T , porque o polinômio caracterı́stico de T é o determinante da matriz
xI − A, cujas entradas são polinômios da forma
j
(xI − A)i = δij x − Aji I,
e o determinante não se altera se considerarmos a transposta desta matriz.

Logo, para mostrar que pc (T ) = 0, basta mostrar que
(det B) ek = 0 para k = 1, . . . , n.
Por definição de B, os vetores e1 , . . . , en satisfazem as equações

n
X
Bij ei = 0 para j = 1, . . . , n.
i=1
Seja B = adj B a adjunta clássica de B, de modo que BB = (det B) I. Da equação acima, para cada par de
ı́ndices k, j temos
n n
kX j X k
0 = Bj Bi ei = B j Bij ei .
i=1 i=1
Logo, somando em j, temos

n X
n
X k
B j Bij ei = 0,
j=1 i=1
donde
 
n n
X X k j
0=  B j Bi  ei
i=1 j=1
n
X k
= BB i
ei
i=1
Xn
= δik (det B) ei
i=1
= (det B) ek .

Na próxima seção daremos outra demonstração do Teorema de Cayley-Hamilton sem usar determinantes.
4.6 Subespaços Invariantes e Operadores Triangularizáveis

4.45 Definição. Seja T ∈ Hom (V ). Dizemos que um subespaço W ⊂ V é invariante por T se T (W ) ⊂ W .

4.46 Exemplo. O subespaço nulo e o espaço todo são invariantes por qualquer operador linear T . O núcleo
de T e a imagem de T também são invariantes por T .
4.47 Exemplo. Considere o espaço vetorial K [x] e o operador linear derivada D. Então o subespaço dos
polinômios de grau menor que ou igual a n, onde n é um inteiro não-negativo qualquer, é invariante por D.

4.48 Exemplo. Qualquer autoespaço de T é invariante por T .
4.49 Exemplo. O operador linear em R2 representado na base canônica pela matriz

0 −1
B=
1 0
não possui outros subespaços invariantes além dos triviais, isto é, além do subespaço nulo e do espaço todo
R2 , porque qualquer subespaço invariante de dimensão 1 seria um autoespaço de B, mas B não possui
autovalores reais, como vimos no Exemplo 4.43.
Quando um subespaço W ⊂ V é invariante por T , T induz um operador linear sobre W , o operador
restrição
T |W : W −→ W.
Denotaremos o operador restrição por TW . Seja
BW = {e1 , . . . , em }
uma base para W e

B = {e1 , . . . , em , em+1 , . . . , en }
um completamento desta base até uma base para V . Seja A = [T ]B a representação matricial do operador
T com relação a B, de modo que
n
X
T ej = Aij ei para j = 1, . . . , n.
i=1
Como W é invariante por T , vale também

m
X
T ej = Aij ei para j = 1, . . . , m,
i=1
isto é, Aij = 0 para i > m, se j 6 m. Em outras palavras, A tem a forma em blocos

Bm×m Cm×(n−m)
A= ,
0(n−m)×m D(n−m)×(n−m)
com o bloco B sendo a representação matricial do operador restrição TW com relação à base BW de W , isto
é,
B = [TW ]BW .
4.50 Proposição. Seja W um espaço invariante de V por T . Então os polinômios mı́nimo e caracterı́stico
para TW são divisores respectivamente dos polinômios mı́nimo e caracterı́stico para T .
Prova: Usando a representação matricial de T obtida na discussão acima

B C
A= ,
0 D
segue imediatamente que

det (xIn − A) = det (xIm − B) det (xIn−m − D)
o que prova a afirmação sobre polinômios caracterı́sticos.
Para provar a afirmação sobre polinômios mı́nimos, note que
k
k B Ck
A = ,
0 Dk
para todo k, para alguma matriz (Ck )m×(n−m) . Logo, se p é um polinômio qualquer, temos

p (B) Cek
p (A) =
0 p (D)

para alguma matriz C
ek . Portanto, qualquer polinômio que anula A também anula B (e mesmo
m×(n−m)
D).
4.51 Definição. Seja W um subespaço invariante de V por T e v ∈ V . O conjunto dos polinômios
condT (v; W ) = {f ∈ K [x] : f (T ) v ∈ W }
é chamado o T -condutor de v para W .

4.52 Proposição. Seja W um espaço invariante de V por T . Então W é invariante por qualquer polinômio
em T .
Em particular, para qualquer v ∈ V , o T -condutor de v para W é um ideal.
Prova: Se w ∈ W , então T w ∈ W e por indução T k w ∈ W para todo k; tomando combinações lineares

(porque W é um subespaço vetorial), concluı́mos que f (T ) w ∈ W para todo polinômio f .
condT (v; W ) é um subespaço vetorial, pois se f, g ∈ condT (v; W ) então
(αf + βg) (T ) v = α [f (T ) v] + β [g (T ) v] ∈ W.
Se f ∈ K [x] e g ∈ condT (v; W ), então
[(f g) (T )] v = [f (T ) g (T )] v = f (T ) [g (T ) v] ∈ W
porque g (T ) v ∈ W e W é invariante por qualquer polinômio em T .

O único gerador mônico do ideal condT (v; W ) é chamado o polinômio T -condutor de v para W .
4.53 Corolário. Todo polinômio T -condutor é um divisor do polinômio mı́nimo para T .

Prova: Pois todo ideal T -condutor contém o polinômio mı́nimo por definição, porque este leva v no vetor
nulo 0 ∈ W .
4.54 Lema. Sejam V um espaço vetorial de dimensão finita e T ∈ Hom (V ) tal que o polinômio mı́nimo
para T é um produto de fatores lineares
r rk
p = (x − λ1 ) 1 . . . (x − λk ) .
Seja W um subespaço próprio de V invariante por T . Então existe um vetor v ∈ V \W tal que
(T − λI) v ∈ W para algum autovalor λ de T .
Em outras palavras, existe um vetor v ∈ V \W tal que o seu polinômio T -condutor para W é um polinômio
linear.
Prova: Seja z ∈ V \W um vetor qualquer. Seja f o polinômio T -condutor de z para W . Então f divide o
polinômio mı́nimo de T . Como z ∈
/ W , f não é um polinômio escalar. Portanto,
s sk
f = (x − λ1 ) 1 . . . (x − λk )
onde sj < rj e pelo menos algum sj 6= 0. Escolha um ı́ndice j tal que sj 6= 0 e escreva
f = (x − λj ) g.
Por definição de f , o vetor v = g (T ) z ∈

/ W , mas
(T − λj I) v = (T − λj I) g (T ) z = f (T ) z ∈ W.

4.55 Definição. Uma matriz A é triangular se Aij = 0 sempre que i < j (triangular inferior) ou se
Aij = 0 sempre que i > j (triangular superior).
4.56 Definição. Dizemos que T ∈ Hom (V ) é triangularizável se existe uma base de V tal que a matriz
de T em relação a esta base é uma matriz triangular.
4.57 Teorema. Um K-operador linear T em um espaço vetorial de dimensão finita é triangularizável se e
somente se o seu polinômio mı́nimo é um produto de fatores lineares sobre K.
Prova: Se T é triangularizável, então existe uma base B = {e1 , . . . , en } para V tal que
 1
A12 A13 . . . A1n

A1
 0 A22 A23 . . . A2n 
0 A33 . . . A3n 
 
[T ]B =  0 .

 .. .. .. .. .. 
 . . . . . 
0 0 0 ... Ann
Segue que o polinômio caracterı́stico de T é o produto de fatores lineares
det (xI − T ) = x − A11 . . . (x − Ann ) .

Como o polinômio mı́nimo é um divisor do polinômio caracterı́stico, ele também é um produto de fatores
lineares.
Reciprocamente, se o polinômio mı́nimo para T se escreve na forma
r rk
p = (x − λ1 ) 1 . . . (x − λk ) ,
aplicamos o Lema 4.54 repetidamente da seguinte forma para encontrar uma base B = {e1 , . . . , en } para V
em relação à qual a matriz de T é triangular. Primeiro aplique aquele lema ao subespaço invariante W = {0}
para obter o vetor e1 . Como
(T − λ1 I) e1 = 0
para algum autovalor λ1 , segue que o subespaço
W1 = he1 i
é invariante por T . Podemos então aplicar novamente o lema ao subespaço W2 para obter o vetor e2 ∈ V \W1 .
Em particular, {e1 , e2 } é LI, e como
(T − λ2 I) x2 ∈ W1
para algum autovalor λ2 , segue que o subespaço
W2 = hx1 , x2 i
é invariante por T ; observe que

T e2 = A12 e1 + λ2 e2
para algum escalar A12 . Continuando desta forma, em cada passo j encontramos vetores e1 , . . . , ej linearmente
independentes tais que
T ej = A1j e1 + . . . + Ajj−1 ej−1 + λj ej
e o subespaço
Wj = he1 , . . . , ej i
é portanto invariante por T .
4.58 Corolário. Todo operador complexo é triangularizável.
Obteremos agora uma terceira caracterização para operadores diagonalizáveis em termos do polinômio
mı́nimo:
4.59 Teorema. Um K-operador linear T é diagonalizável se e somente se o seu polinômio mı́nimo sobre K
é um produto de fatores lineares distintos
p = (x − λ1 ) . . . (x − λk ) .
Prova: Já vimos no Corolário 4.41 que se T é diagonalizável, então seu polinômio mı́nimo é um produto de
fatores lineares distintos. Reciprocamente, suponha que o polinômio mı́nimo de T é o produto
p = (x − λ1 ) . . . (x − λk )
de fatores lineares distintos e suponha por absurdo que T não é diagonalizável. Então, se
W = W 1 + . . . + Wk
é a soma dos autoespaços Wi associados a λi T , segue que W 6= V . Mas W é um subespaço invariante por
T , logo pelo Lema 4.54 existe um vetor v ∈ V \W e um autovalor λj tal que
w = (T − λj I) v ∈ W,
isto é
x − λj ∈ condT (v; W ) .
Escreva
p = (x − λj ) q.
de modo que q que não possui λj como raiz. Como
0 = p (T ) v = (T − λj I) q (T ) v,
segue que q (T ) v ∈ ker (T − λj I) = Wj , de modo que também
q ∈ condT (v; W ) .
Mas o polinômio T -condutor de v para W divide ambos x − λj e q e estes não tem fatores em comum,
contradição.
Assim, para determinar se T é diagonalizável, basta encontrar os autovalores distintos λ1 , . . . , λk de T e
determinar se o operador (T − λ1 I) . . . (T − λk I) é o operador nulo ou não. Se T satisfaz uma equação
polinomial, se esta se fatora em fatores lineares distintos, concluı́mos imediatamente que T é diagonalizável:
por exemplo, se T 2 = I ou T 2 = T .
Demonstração alternativa do Teorema de Cayley-Hamilton. Pelo Teorema 4.57 basta provar o
Teorema de Cayley-Hamilton para operadores triangularizáveis. De fato, pelo Teorema 4.57 todo operador
linear em um espaço vetorial sobre um corpo algebricamente fechado é triangularizável (um corpo K é
algebricamente fechado se todo K-polinômio possui uma raiz ou, equivalentemente, se todo K-polinômio
é um produto de fatores lineares); pela teoria de corpos, todo corpo K0 é um subcorpo de um corpo K
algebricamente fechado. O fato do polinômio caracterı́stico anular A ∈ Mn (K0 ) quando considerada uma
K-matriz, continua obviamente valendo quando ela é considerada uma K0 -matriz, pois os coeficientes do
polinômio caracterı́stico estão em K0 .
[Observe que para provar a afirmação do Teorema 4.57 que se o polinômio mı́nimo de um operador se
fatora como um produto de fatores lineares então o operador é triangularizável, não foi usado o teorema de
Cayley-Hamilton. Ele foi usado no Teorema 4.57 para provar a recı́proca desta afirmação, que não entra no
presente argumento.]
É fácil provar o teorema de Cayley-Hamilton para operadores triangularizáveis. De fato, se B =
{e1 , . . . , en } é uma base para V em relação à qual T é representada por uma matriz triangular A, então o
polinômio caracterı́stico para A é
f = x − A11 . . . (x − Ann ) .

Para provar que f anula T , isto é, que
T − A11 I . . . (T − Ann I)

é o operador nulo sobre V , procedemos por indução na dimensão de V . O resultado é claramente válido
para n = 1. Assuma o resultado válido para n − 1 e escreva a matriz A em blocos

B(n−1)×(n−1) C(n−1)×1
A=
01×(n−1) Ann
Observe que
(T − Ann I) V ⊂ he1 , . . . , en−1 i =: W.
W é um subespaço invariante por T de dimensão n − 1, com
[TW ]{e1 ,...,en−1 } = B,
e TW tem como polinômio caracterı́stico exatamente
f = x − A11 . . . x − An−1

n−1 .
Logo, por hipótese de indução,
TW − A11 In−1 . . . TW − An−1

n−1 In−1
é o operador nulo sobre W . Portanto a composta

n−1
T − A11 I . . . T − An−1 I (T − Ann I)

= TW − A11 In−1 . . . TW − An−1 n

n−1 In−1 (T − An I)
é o operador nulo sobre V (observe que os vetores de W têm as últimas coordenadas nulas, logo faz sentido
aplicar o lado direito a vetores de V , apesar das matrizes identidades possuı́rem tamanho n − 1).
4.7 Exercı́cios
4.60 Exercı́cio. Seja T o operador linear em R4 representado na base canônica pela matriz
 
0 0 0 0
 a 0 0 0 
 .
 0 b 0 0 
0 0 c 0
Sob que condições em a, b e c o operador T é diagonalizável?

4.61 Exercı́cio. Sejam A, B ∈ Mn (K). Prove que se I − AB é invertı́vel, então I − BA também é invertı́vel
e
−1 −1
(I − BA) = I + B (I − AB) A.
Use este resultado para provar que se A, B ∈ Mn (K) são duas matrizes quaisquer, então AB e BA possuem
os mesmos autovalores. Será que AB e BA possuem o mesmo polinômio caracterı́stico? Será que AB e BA
possuem o mesmo polinômio mı́nimo?
4.62 Exercı́cio. Seja A ∈ Mn (K) uma matriz diagonal com polinômio caracterı́stico
d1 dk
f = (x − λ1 ) . . . (x − λk )
onde λ1 , . . . , λk são distintos. Mostre que subconjunto em Mn (K) das matrizes B tais que AB = BA é um
subespaço vetorial de dimensão
d21 + . . . + d2k .
4.63 Exercı́cio. Seja A ∈ Mn (K) e considere o operador linear T : Mn (K) −→ Mn (K) definido por
T (B) = AB. Será verdade que A e T possuem os mesmos autovalores? Será que A e T possuem o mesmo
polinômio caracterı́stico? Será que A e T possuem o mesmo polinômio mı́nimo?
4.64 Exercı́cio. Seja K um corpo arbitrário e a, b, c ∈ K. Considere a matriz
 
0 0 c
A =  1 0 b .
0 1 a
Mostre que o polinômio caracterı́stico para A é p = x3 − ax2 − bx − c e que este também é o polinômio
mı́nimo para A.
4.65 Exercı́cio. Seja A a matriz real
 
1 1 0 0
 −1 −1 0 0 
A=
 −2

−2 2 1 
1 1 −1 0
2
Mostre que o seu polinômio caracterı́stico é p = x2 (x − 1) e que este também é o seu polinômio mı́nimo.
Se A for considerada uma matriz complexa, A é diagonalizável?
4.66 Exercı́cio. Seja T o operador linear sobre R2 cuja matriz na base canônica é

1 −1
A= .
2 2
Prove que os únicos subespaços de R2 invariantes por T são os triviais. Se U é um operador sobre C2 cuja
matriz na base canônica é A, mostre que U possui um subespaço invariante unidimensional.
4.67 Exercı́cio. Seja  

0 1 0
A= 2 −2 2  .
2 −3 2
A é semelhante sobre o corpo dos números reais a uma matriz triangular? Se for, encontre uma tal matriz
triangular.
4.68 Exercı́cio. Prove que toda matriz A tal que A2 = A é semelhante a uma matriz diagonal.
4.69 Exercı́cio. Seja T : V −→ V um operador linear tal que todo subespaço de V é invariante por T .
Mostre que T é um múltiplo escalar do operador identidade.
4.70 Exercı́cio. Seja A uma matriz real 3 × 3. Mostre que se A não é semelhante sobre R a uma matriz
triangular, então A é semelhante sobre C a uma matriz diagonal.
4.71 Exercı́cio. A seguinte afirmação é falsa ou verdadeira? Se uma matriz triangular é semelhante a uma
matriz diagonal, então ela já é diagonal.
4.72 Exercı́cio. Seja T um operador linear sobre um espaço vetorial V sobre K de dimensão finita e
f ∈ K [x]. Prove que Λ é um autovalor de f (T ) se e somente se Λ = f (λ) para algum autovalor λ de T .
4.8 Projeções e Decomposição em Soma Direta

4.73 Definição. Seja V um espaço vetorial. Uma projeção de V é um operador linear E ∈ Hom (V ) tal
que
E 2 = E.

4.74 Proposição. Seja E ∈ Hom (V ) uma projeção. Então
V = im E ⊕ ker E,
com a decomposição de um vetor v ∈ V como soma direta dada por
v = Ev + (I − E) v.
Em particular, v ∈ im E se e somente se
Ev = v.
Além disso, se V = W ⊕ Z, existe uma única projeção E tal que W = im E e Z = ker E.
Prova: Suponha que v ∈ im E ∩ ker E, de modo que Ev = 0 e v = Ew para algum w ∈ V . Logo,
0 = Ev = E 2 w = Ew = v,
e portanto ker E e im E são LI.
Observe que
E [(I − E) v] = Ev − E 2 v = Ev − Ev = 0,
portanto (I − E) v ∈ ker E.
Se V = W ⊕ Z, então cada vetor v ∈ V se escreve de maneira única na forma v = w + z para alguns
vetores w ∈ W e z ∈ Z, logo podemos definir um operador linear E : W ⊕ Z −→ V por
E(w + z) = w.
E é portanto um operador linear bem definido e para todo vetor v ∈ V vale
E 2 v = E (Ev) = Ew = w = Ev.

4.75 Definição. Na notação da proposição anterior, se W = im E e Z = ker E, dizemos que E é a projeção

de V sobre W na direção de Z.
4.76 Proposição. Se V é espaço vetorial de dimensão finita e E ∈ Hom (V ) é uma projeção, então E é
diagonalizável e existe uma base B para V tal que

Im 0
[E]B = .
0 0
Prova: E é diagonalizável porque o polinômio mı́nimo de E é um produto de fatores lineares distintos:

como E 2 = E, segue que
x2 − x = x (x − 1)
anula E.
Se
B0 = {e1 , . . . , em }
é uma base para im E e
B00 = {em+1 , . . . , en }
é uma base para ker E, então
B = {e1 , . . . , en }
é uma base para V tal que
Im 0
[E]B = .
0 0

O próximo resultado generaliza a Proposição 4.74 (veja os Exercı́cios 4.85 e 4.102).
4.77 Teorema (Decomposição em Soma Direta). Se V = W1 ⊕ . . . ⊕ Wk , então existem k projeções

E1 , . . . , Ek ∈ Hom (V ) tais que
(i) Para todo i,
im Ei = Wi .
(ii) Se i 6= j,
Ei Ej = 0.
(iii)
E1 + . . . + Ek = I.
Reciprocamente, se existem k operadores lineares E1 , . . . , Ek ∈ Hom (V ) que satisfazem as condições

(i)-(iii), então eles são projeções e V = W1 ⊕ . . . ⊕ Wk .
Prova: Suponha V = W1 ⊕ . . . ⊕ Wk . Dado v = w1 + . . . + wk com wi ∈ Wi , defina
Ej v = wj .
Então Ej é um operador linear bem definido e Ej2 = Ej , isto é, Ej é uma projeção. Além disso, para todo j
vale
im Ej = Wj ,
ker Ej = W1 + . . . + W
cj + . . . + Wk ,
de modo que Ei Ej = 0 se i 6= j. Como
v = w1 + . . . + wk
= E1 v + . . . + Ek v
= (E1 + . . . + Ek ) v,
temos I = E1 + . . . + Ek .
Reciprocamente, suponha existirem k operadores lineares E1 , . . . , Ek ∈ Hom (V ) que satisfazem (i)-(iii).
Obtemos que eles são projeções multiplicando (iii) por cada Ei e usando (ii). Como, por (iii),
v = E1 v + . . . + Ek v
temos que
V = W1 + . . . + Wk .
Além disso, esta expressão para v é única. De fato, se v = w1 + . . . + wk com wi ∈ Wi , temos, usando (ii) e
o fato que eles são projeções,
k
X k
X
Ej v = Ej wi = Ej Ei wi = Ej2 wj = Ej wj = wj .
i=1 i=1

As decomposições em soma direta V = W1 ⊕ . . . ⊕ Wk mais úteis de um espaço vetorial V são aquelas
em que cada um dos subespaços Wi são invariantes por algum operador linear T . Denote
Ti = TWi : Wi −→ Wi .
Se
v = w1 + . . . wk
é a expressão única de v como a soma de vetores dos subespaços invariantes Wi , temos
T v = T w1 + . . . + T wk
= T1 w1 + . . . + Tk wk .
Dizemos que T é a soma direta dos operadores T1 , . . . , Tk e escrevemos
T = T1 ⊕ . . . ⊕ Tk .
Observe, porém, que a expressão T1 + . . . + Tk não tem o sentido usual de soma de operadores, já que cada
operador Ti tem domı́nio diferente dos demais. Se Bi é uma base para Wi , de modo que B = {B1 , . . . , Bk }
é uma base para V , temos  
[T1 ]B1 0 ... 0
 0 [T2 ]B2 . . . 0 
[T ]B =  .
 
.. .. .. .
..
 . . . 
0 0 . . . [Tk ]Bk
O objetivo é encontrar uma decomposição do espaço V em soma direta de subespaços invariantes por T de
tal forma que os operadores Ti tenham uma forma simples.
4.78 Lema. Sejam T um operador linear e E uma projeção. O núcleo e a imagem de E são invariantes
por T se e somente se
T E = ET,
isto é, se e somente se [T, E] = 0.

Prova: Suponha que T E = ET . Dado w ∈ im E, então Ew = w e

T w = T (Ew) = E (T w) ,
de modo que T w ∈ im E e portanto im E é invariante por T . Dado z ∈ ker E, temos Ez = 0 e
E (T z) = T (Ez) = T 0 = 0,
de modo que T z ∈ ker E e portanto ker E também é invariante por T .
Reciprocamente, suponha im E e ker E invariantes por T . Seja v ∈ V um vetor qualquer. Então,
v = Ev + (I − E) v,
onde Ev ∈ im E e (I − E) v ∈ ker E. Temos
T v = T Ev + T (I − E) v.
Pela invariância de im E por T , temos
T Ev = Ew
para algum vetores w ∈ im E e
T (I − E) v ∈ ker E.
Logo,
ET v = E (T Ev + T (I − E) v) = E 2 w = Ew = T Ev.

4.79 Teorema (Decomposição em Soma Direta de Subespaços Invariantes). Sejam T ∈ Hom (V )
e V = W1 ⊕ . . . ⊕ Wk uma decomposição em soma direta de subespaços invariantes.
Existem k projeções E1 , . . . , Ek ∈ Hom (V ) tais que
(i) Para todo i,
im Ei = Wi .
(ii) Se i 6= j,
Ei Ej = 0.
(iii)
E1 + . . . + Ek = I.
(iv) Para todo i,

T Ei = Ei T
Reciprocamente, se existem k operadores lineares E1 , . . . , Ek ∈ Hom (V ) que satisfazem as condições

(i)-(iv), então eles são projeções, Wi é invariante por T e V = W1 ⊕ . . . ⊕ Wk .
Prova: Em vista do Teorema 4.77, basta provar que obtemos uma decomposição em soma direta de su-
bespaços invariantes se e somente se T comuta com cada Ei .
Suponha que T comuta com Ei . Segue imediatamente do lema anterior que im Ei é invariante por T .
Reciprocamente, suponha que cada Wi é invariante por T . Observando que
im Ei = Wi ,
ker Ei = W1 + . . . + W
cj + . . . + Wk
são invariantes por T , segue do lema anterior que T comuta com Ei .

No próximo resultado, descreveremos um operador diagonalizável na linguagem de decomposição em soma
direta de subespaços invariantes, o que ajudará a entender outros teoremas mais profundos de decomposição
em soma direta que veremos neste e no próximo capı́tulo.
4.80 Teorema (Decomposição em Soma Direta de Subespaços Invariantes para Operadores

Diagonalizáveis). Seja T ∈ Hom (V ).
Se T é diagonalizável, λ1 , . . . , λk são os autovalores distintos de T e W1 , . . . , Wk são os autoespaços
respectivamente correspondentes a estes autovalores, então existem k projeções E1 , . . . , Ek ∈ Hom (V ) tais
que
(i) Para todo i,
im Ei = Wi .
(ii) Se i 6= j,
Ei Ej = 0.
(iii)
E1 + . . . + Ek = I.
(iv)
T = λ1 E1 + . . . + λk Ek .
Reciprocamente, se existem k operadores lineares não nulos E1 , . . . , Ek ∈ Hom (V ) e k escalares distintos

λ1 , . . . , λk que satisfazem as condições (ii)-(iv), então T é diagonalizável, λ1 , . . . , λk são os autovalores distin-
tos de T , W1 , . . . , Wk são os autoespaços respectivamente correspondentes a estes autovalores, os operadores
são projeções e a condição (i) também é satisfeita.
Prova: Suponha T diagonalizável. Pelo Teorema 4.32 V = W1 ⊕ . . . ⊕ Wk . Então o fato que os operadores
Ei são projeções e as condições (i)-(iii) seguem do Teorema 4.79. Para verificar (iv), observe que para cada
vetor v ∈ V temos
v = E1 v + . . . + Ek v,
logo
T v = T E1 v + . . . + T Ek v
= λ1 E1 v + . . . + λk Ek v.
Reciprocamente, suponha que existam operadores lineares E1 , . . . , Ek ∈ Hom (V ) e escalares distintos

λ1 , . . . , λk que satisfazem as condições (ii)-(iv). Como na demonstração do Teorema 4.77 o fato que cada Ei
é uma projeção segue de (ii) e (iii).
Multiplicando (iv) por Ei , obtemos T Ei = λi Ei , o que mostra que
im Ei = Wi ⊂ ker (T − λi I) .
Como Ei 6= 0 por hipótese, isso prova que Wi 6= {0}, ou seja, λi é um autovalor de T . Em particular, como os
subespaços Wi estão contidos em autoespaços associados a autovalores distintos, eles são LI. Portanto, segue
de (iii) que V = W1 ⊕ . . . ⊕ Wk . Concluı́mos que T é diagonalizável, pois V possui uma base de autovetores
de T . Não existem outros autovalores de T além de λ1 , . . . , λk , pois se λ é um autovalor de T , então
T − λI = (λ1 − λ) E1 + . . . + (λk − λ) Ek ,
de modo que se (T − λI) v = 0, devemos ter
(λi − λ) Ei v = 0
para todo i. Se v 6= 0, então Ej v 6= 0 para algum j por (iii) e pelos Wi serem LI, logo λ = λj .
Só falta mostrar que Wi = ker (T − λi I) para todo i. Se v ∈ ker (T − λi I), isto é, se T v = λj v, então
0 = (T − λj I) v = (λ1 − λj ) E1 v + . . . + (λk − λj ) Ek v,
donde (λi − λj ) Ei v = 0 para todo i, logo Ei v = 0 para todo i 6= j. Daı́, segue que
v = E1 v + . . . + Ek v = Ej v ∈ Wj .
4.9 Exercı́cios
4.81 Exercı́cio. Seja T ∈ Hom (V ) um operador linear e E uma projeção. Prove que a imagem de E é
invariante por T se e somente se ET E = T E.
4.82 Exercı́cio. Seja T ∈ Hom (V ) um operador linear que comuta com toda projeção de V . O que você
pode dizer sobre T ?
4.83 Exercı́cio. Se E é uma projeção e f um polinômio, então f (E) = aI + bE. Encontre uma expressão
para a e b em termos dos coeficientes de f .
4.84 Exercı́cio. Mostre que se E é a projeção sobre W na direção de Z, então I − E é a projeção sobre Z
na direção de W .
4.85 Exercı́cio. Sejam E1 , . . . , Ek : V −→ V operadores lineares tais que E1 + . . . + Ek = I.

1. Prove que se Ei Ej = 0 sempre que i 6= j, então cada Ei é uma projeção.
2. Prove a recı́proca no caso k = 2, isto é, se E1 , E2 são projeções tais que E1 + E2 = I, então E1 E2 = 0.
3. Prove a recı́proca no caso geral, isto é, se E1 , . . . , Ek são projeções tais que E1 + . . . + Ek = I, então
Ei Ej = 0 sempre que i 6= j, assumindo que V é um espaço vetorial sobre um subcorpo dos complexos.
(Sugestão para este último: use a função traço; qual é o traço de uma projeção?)
4.10 Fatoração de Polinômios

No Teorema 4.37, provamos que se M é um ideal de K [x], então existe um único polinômio mônico d em
K [x] tal que M é o ideal principal gerado por d, isto é, M = dK [x]. Como consequência, vale o seguinte
resultado:
4.86 Corolário. Se p1 , . . . , pk são polinômios sobre K, não todos nulos, então existe um único polinômio
mônico d ∈ K [x] tal que
(i) d está no ideal gerado por p1 , . . . , pk , isto é, d ∈ p1 K [x] + . . . + pk K [x] ;
(ii) d é um divisor de cada um dos polinômios p1 , . . . , pk .
Além disso, qualquer polinômio d que satisfaz (i) e (ii) satisfaz
(iii) d é um múltiplo polinomial de qualquer polinômio divisor dos polinômios p1 , . . . , pk .
Prova: Seja d o gerador mônico do ideal p1 K [x] + . . . + pk K [x]. Como cada membro do ideal é divisı́vel
por d, em particular cada pi é divisı́vel por d, o que prova (i) e (ii).
Suponha que f é um polinômio que divide p1 , . . . , pk . Então existem polinômios g1 , . . . , gk tais que
pi = f gi para cada i. Também, como d ∈ p1 K [x] + . . . + pk K [x], existem polinômios q1 , . . . , qk tais que
d = p1 q1 + . . . + pk qk . Logo
d = f (g1 q1 + . . . + gk qk ) .
Se d0 é outro polinômio que satisfaz (i) e (ii), segue da definição de d que d0 = f d para algum polinômio
f , logo satisfaz (iii). Se d0 é mônico, segue que d0 = d.
4.87 Definição. Sejam p1 , . . . , pk polinômios sobre um corpo K, não todos nulos. O gerador mônico d do
ideal p1 K [x] + . . . + pk K [x] é chamado o máximo divisor comum de p1 , . . . , pk , denotado
d = mdc (p1 , . . . , pk )
Dizemos que os polinômios p1 , . . . , pk são relativamente primos se mdc (p1 , . . . , pk ) = 1.

Observe que dizer que p1 , . . . , pk são relativamente primos é equivalente a dizer que o ideal gerado por eles é
todo o anel K [x]. Em vista do Corolário 4.86 (iii), quando os polinômios p1 , . . . , pk são relativamente primos,
eles não são simultaneamente divisı́veis por nenhum outro polinômio diferente de 1.
4.88 Definição. Dizemos que um polinômio f ∈ K [x] é redutı́vel sobre K se existem polinômios g, h ∈ K [x]
de grau maior ou igual a 1 tais que
f = gh.
Caso contrário, dizemos que f é irredutı́vel sobre K. Um polinômio irredutı́vel não-escalar também é
chamado um polinômio primo sobre K.
Em outras palavras, dizer que p é primo equivale a dizer que os únicos divisores de p são p e 1.
4.89 Proposição. Suponha que p é um polinômio primo que é um divisor do produto f g. Então p é um
divisor de f ou p é um divisor de g.
Prova: Sem perda de generalidade podemos assumir que p é mônico. Seja d = mdc (p, f ). Como p é primo,
segue que d = 1 ou d = p. Se d = p, então p divide f . Caso contrário, mostraremos que d divide g. Como
mdc (p, f ) = 1, existem polinômios h1 , h2 tais que
1 = ph1 + f h2 .
Logo, multiplicando esta equação por g, obtemos
g = p (gh1 ) + (f g) h2 ,
Denote k1 = gh1 . Como p divide f g, temos f g = ph3 para algum polinômio h3 . Portanto, se k2 = h3 h2 ,
temos
g = pk1 + pk2 = p (k1 + k2 ) .

4.90 Corolário. Se p é um polinômio primo que é um divisor do produto f1 . . . fk , então p é um divisor de
algum dos polinômios f1 , . . . , fk .
4.91 Teorema. Se K é um corpo, então todo polinômio mônico não-escalar sobre K pode ser fatorado como
um produto de polinômios primos mônicos sobre K de uma única maneira (a menos da ordem dos fatores).
4.92 Proposição. Seja f um polinômio mônico não-escalar sobre K tal que
f = pr11 . . . prkk
é a fatoração prima de f . Para cada i, defina

k
p Y r
fi = ri = pj j .
pi j=1
j6=i
Então f1 , . . . , fk são relativamente primos.

4.11 Teorema da Decomposição Primária e Teorema Espectral

Para operadores em geral, mesmo aqueles que não possuem nenhum autovalor, vale o seguinte resultado
fundamental:
4.93 Teorema (Teorema da Decomposição Primária). Seja T ∈ Hom (V ) um K-operador linear com
polinômio mı́nimo
p = pr11 . . . prkk
expresso como um produto de fatores primos distintos sobre K. Seja
Wi = ker pri i (T ) .
Então
(i) V = W1 ⊕ . . . ⊕ Wk .
(ii) Cada Wi é invariante por T .
(iii) O polinômio mı́nimo de Ti = T |Wi é pri i .
Prova: Usaremos o Teorema 4.79, encontrando as projeções Ei sobre Wi que comutam com T . Para isso,
sabendo que operadores que são polinômios em T sempre comutam com T , encontraremos polinômios hi tais
que hi (T ) é a identidade em Wi e nulo nos outros Wj ; hi (T ) será a projeção Ei .
Para cada i, defina
k
p Y r
fi = ri = pj j .
pi j=1
j6=i
Como pr11 , . . . , prkk

são fatores primos distintos, os polinômios f1 , . . . , fk são relativamente primos. Logo,
existem polinômios g1 , . . . , gk sobre K tais que
k
X
fi gi = 1.
i=1
Defina
hi = fi gi .
e
Ei = hi (T ) .
Como h1 + . . . + hk = 1, segue que E1 + . . . + Ek = I. Notando que se i 6= j então o polinômio fi fj é um
múltiplo polinomial do polinômio mı́nimo p (porque este produto contém todos os fatores de p), segue que
Ei Ej = [fi gi (T )] [fj gj (T )]
= fi (T ) fj (T ) gi (T ) gj (T )
= (fi fj ) (T ) gi (T ) gj (T )
= 0gi (T ) gj (T )
=0
se i 6= j. Segue dos Teoremas 4.77 e 4.79 que os operadores Ei são projeções e
V = im E1 ⊕ . . . ⊕ im Ek .
Para provar (i) e (ii), basta mostrar que im Ei = Wi .

Para provar isso, observe primeiro que im Ei ⊂ Wi , pois se v = Ei v então
pri i (T ) v = pri i (T ) Ei v
= pri i (T ) fi (T ) gi (T ) v
= p (T ) gi (T ) v
= 0.
Reciprocamente, Wi ⊂ im Ei . De fato, seja v ∈ ker pri i (T ). Se j 6= i, então fj gj é um múltiplo polinomial de

pri i , logo Ej v = 0. De E1 + . . . + Ek = I segue imediatamente que Ei v = v, logo v ∈ im Ei .
Para terminar a demonstração do teorema, observe que pri i (Ti ) = 0, já que por definição Wi = ker pri i (T ),
logo o polinômio mı́nimo de Ti divide pri i . Reciprocamente, se psi i , si 6 ri , é tal que psi i (Ti ) = 0, então
psi i (T ) fi (T ) = 0. Em particular, psi i fi é divisı́vel pelo polinômio mı́nimo de T , isto é, p = pri i fi divide psi i fi ,
donde pri i divide psi i e portanto si = ri .
4.94 Corolário. Se E1 , . . . , Ek são as projeções associadas com a decomposição primária de T , então cada
Ei é um polinômio em T .
Consequentemente, se um operador linear S comuta com T , então S comuta com cada Ei , isto é, cada
subespaço Wi é invariante por S. Em particular, T e S possuem a mesma decomposição em soma direta por
subespaços invariantes.
4.95 Corolário (Teorema da Decomposição Espectral). Seja T ∈ Hom (V ) um K-operador linear com
polinômio mı́nimo fatorável como um produto de fatores lineares sobre K
r rk
p = (x − λ1 ) 1 . . . (x − λk )
com λ1 , . . . , λk distintos. Seja

r
Wi = ker (T − λi I) i .
Então
(i) V = W1 ⊕ . . . ⊕ Wk .
(ii) Cada Wi é invariante por T .
r
(iii) O polinômio mı́nimo de Ti = T |Wi é (x − λi ) i .
Além disso, se
d d
p = (x − λ1 ) 1 . . . (x − λk ) k
é o polinômio caracterı́stico de T , então dim Wi = di .
Prova: À exceção da última afirmação, o Teorema da Decomposição Espectral é o Teorema da Decomposição
Primária para operadores cujos polinômios mı́nimos são completamente fatoráveis. Para provar esta última,
r e
note que como o polinômio mı́nimo de Ti é (x − λi ) i , o polinômio caracterı́stico de Ti é (x − λi ) i onde
ei = dim Wi . Usando a matriz em blocos [Ti ]Bi de T , onde Bi é uma base para Wi , é fácil ver que o polinômio
caracterı́stico de T é o produto dos polinômios caracterı́sticos dos operadores Ti . Portanto, necessariamente
ei = di .
4.96 Definição. O subespaço
ri
Wi = ker (T − λi I)
é chamado o autoespaço generalizado associado ao autovalor λi e seus elementos são chamados autove-
tores generalizados.
4.97 Corolário. Operadores complexos possuem bases de autovetores generalizados.
4.98 Corolário. Sejam T, S ∈ Hom (V ) operadores lineares cujos polinômios mı́nimos são produtos de
fatores lineares. Se
T S = ST,
então T e S possuem a mesma decomposição em soma direta por subespaços invariantes.
Em particular, se T, S são operadores diagonalizáveis, então T e S são simultaneamente diagonalizáveis
se e somente se T S = ST .
Prova: A primeira parte segue do Corolário 4.94. A recı́proca da segunda segue do fato de que se dois
operadores são simultaneamente diagonalizáveis, isto é, se existe uma mesma base em relação à qual as
matrizes de ambos os operadores são diagonais, então os operadores comutam, pois matrizes diagonais
comutam.
Este resultado é verdadeiro para um conjunto com um número arbitrário de operadores: eles são simultane-
amente diagonalizáveis se e somente se todos eles comutam dois a dois.
4.12 Decomposição de um Operador na sua Parte Diagonal e Nil-

potente
Seja T ∈ Hom (V ) um operador cujo polinômio mı́nimo é um produto de fatores lineares
r rk
p = (x − λ1 ) 1 . . . (x − λk )
com λ1 , . . . , λk distintos. Se E1 , . . . , Ek são as projeções associadas à decomposição espectral de T , defina

um operador D ∈ Hom (V ) por
D = λ 1 E1 + . . . + λ k Ek .
Pelo Teorema 4.80, D é um operador diagonalizável. Considere o operador
N = T − D.
Como T = T E1 + . . . + T Ek , segue que
N = (T − λ1 I) E1 + . . . + (T − λk I) Ek .
Usando os fatos que Ei2 = Ei , Ei Ej = 0 se i 6= j, e que as projeções comutam com T , segue que
2 2
N 2 = (T − λ1 I) E1 + . . . + (T − λk I) Ek ,
..
.
r r
N r = (T − λ1 I) E1 + . . . + (T − λk I) Ek .
Em particular, se r > ri , concluı́mos que

N r = 0.
4.99 Definição. Dizemos que N ∈ Hom (V ) é nilpotente se existe algum inteiro r tal que N r = 0.
4.100 Teorema. Seja T ∈ Hom (V ). Suponha que o polinômio mı́nimo de T é um produto de fatores
lineares. Então existe um único operador diagonalizável D ∈ Hom (V ) e um único operador nilpotente
N ∈ Hom (V ) tais que
T =D+N
e
DN = N D.
Além disso, cada um deles é um polinômio em T .

Prova: Em vista da discussão anterior, só falta provar a unicidade da decomposição (que D e N comutam
segue do fato de ambos serem polinômios em T ). Suponha que T = D0 + N 0 , com D0 diagonalizável e N 0
nilpotente, satisfazendo D0 N 0 = N 0 D0 . Mostraremos que D0 = D e N 0 = N .
Como D0 e N 0 comutam entre si e T = D0 + N 0 , segue que D0 e N 0 comutam com T e portanto com
qualquer polinômio em T , em particular com D e N . De D + N = D0 + N 0 , segue que
D − D0 = N 0 − N.
D − D0 é um operador diagonalizável. Como D e D0 comutam, eles são simultaneamente diagonalizáveis.

Como N e N 0 comutam e são nilpotentes, segue que N 0 − N também é nilpotente, pois
r
0 r
X r i r−i
(N − N ) = (−1) (N 0 ) Ni
i=0
i
de modo que se r é suficientemente grande, todo termo no lado esquerdo da expressão será nulo, porque ou
r−i
(N 0 ) = 0 ou N i = 0 (ou ambos).
Em particular, D −D0 é um operador diagonalizável que também é nilpotente. Como o polinômio mı́nimo
de um operador nilpotente é xr para algum r e o polinômio mı́nimo de um operador diagonalizável é um
produto de fatores lineares, segue que o polinômio mı́nimo de D − D0 é x, ou seja, D − D0 é o operador nulo.
Portanto, 0 = D − D0 = N 0 − N .
4.101 Corolário. Se T é um operador linear complexo, então T se decompõe de maneira única como a soma
de um operador diagonalizável e um operador nilpotente que comutam. Além disso, eles são polinômios em
T.
4.13 Exercı́cios
4.102 Exercı́cio. Seja V um espaço vetorial de dimensão n e N : V −→ V um operador nilpotente. Então
N n = 0.
4.103 Exercı́cio. Dê um exemplo de duas matrizes 4 × 4 nilpotentes que possuem o mesmo polinômio
mı́nimo mas que não são semelhantes.
4.104 Exercı́cio. Seja V um espaço vetorial de dimensão finita e suponha que T : V −→ V é um operador
que comuta com todo operador diagonalizável. Mostre que T é um múltiplo escalar do operador identidade.
4.105 Exercı́cio. Sejam V um espaço vetorial de dimensão finita sobre C, T : V −→ V um linear e D sua
parte diagonal. Mostre que se f ∈ C [x], então a parte diagonal de f (T ) é f (D).
4.106 Exercı́cio. Dada A ∈ Mn (K), considere o operador linear T : Mn (K) −→ Mn (K) definido por
T (B) = [A, B] = AB − BA.
Mostre que se A é uma matriz nilpotente, então T é um operador nilpotente.

4.107 Exercı́cio. Ache os autovalores e correspondentes autoespaços das matrizes seguintes sobre R e sobre
C. Encontre os seus polinômios mı́nimos. Determine se a matriz é diagonalizável sobre R e sobre C. Se não
for, encontre a sua decomposição primária.

 
1 2 3
1 2 1 1
(a) (b) (c)  0 1 2 
0 −1 1 1
0 0 1
     
0 1 0 1 1 −1 3 −3 −4
(d)  0 0 1  (e)  0 1 0  (f )  0 3 5 
−1 0 0 1 0 1 0 0 −1
   
  2 0 1 0 0 1 0 0
6 −3 −2  0 2 0 1   0 0 1 0 
(g)  4 −1 −2  (h) 
 12 0 3 0
 (i)  0

 0 0 1 
10 −5 −3
0 −1 0 0 1 0 0 0
   
0 1 0 1 1 1 0 0
 1 0 1 0   −1 −1 0 0 
(j) 
 0
 (k) 
 −2 −2 2

1 0 1  1 
1 0 1 0 1 1 −1 0
4.108 Exercı́cio. Sejam

   
1 2 1 1 3 1
A= 0 −1 1  e B= 0 2 0 .
0 0 −1 0 0 3
Calcule os autovalores e correspondentes autoespaços de AB e BA.

4.109 Exercı́cio. Calcule o polinômio mı́nimo das matrizes seguintes sobre R e sobre C.
   
3 0 −4 0 2 1 0 0  
 0 a b c
3 5 0   0 2 0 0 
(a)   (b)   (c)  0 d e 
 0 0 −1 0   0 0 2 0 
0 0 f
0 0 0 −1 0 0 0 3
Capı́tulo 5
Forma Canônica de Jordan
5.1 Forma de Jordan

Dado um operador linear, o objetivo de obter uma representação matricial para este operador a mais dia-
gonal possı́vel é alcançado através da forma de Jordan. Nesta seção mostraremos que todos os operadores
lineares cujos polinômios caracterı́sticos se fatoram completamente, o que inclui operadores complexos, são
representados por uma matriz na forma de Jordan.
5.1.1 Definição
O fato de um operador linear cujo polinômio caracterı́stico é completamente fatorável deixar de ser diagona-
lizável não pode ser atribuı́do à falta de autovalores, já que todas as raı́zes do polinômio caracterı́stico estão
presentes. O problema está na falta de autovetores suficientes para produzir uma base para o espaço. Se
existe um número suficiente de autovetores, então o operador é diagonalizável por definição e a sua forma
de Jordan coincide com a sua forma diagonal. Caso contrário, para cada autovetor que faltar a forma de
Jordan terá um escalar 1 acima da diagonal, acima do autovalor correspondente.
5.1 Definição. Seja J uma matriz sobre um corpo K e λ1 , . . . , λk seus autovalores distintos. Dizemos que
J está na forma de Jordan se  
J1 0 . . . 0
 0 J2 . . . 0 
J = .
 
.. . . .. 
 .. . . . 
0 0 . . . Jk
com cada bloco Ji na forma em blocos
 
Ji,1 0 ... 0
 0 Ji,2 ... 0 
Ji = 
 
.. .. .. .. 
 . . . . 
0 0 ... Ji,ni
e cada bloco Ji,k tem a forma  
λi 1 0 ... ... 0
 0 λi 1 ... ... 0 
 
 .. 
 0 0 λi .... 0 
Ji,k =
 . ..

.. 
 .. .. .. ..
 . . . . . 

 0 0 ... 0 λi 1 
0 0 ... ... 0 λi
99
com seu tamanho igual ou decrescendo à medida que k aumenta.

O bloco Ji é chamado um bloco de Jordan associado ao autovalor λi e Ji,k é chamado um bloco de
Jordan fundamental.
Se uma matriz A é semelhante a uma matriz J na forma de Jordan, dizemos que J é a forma de Jordan
de A.
Cada bloco de Jordan fundamental Ji,k é uma matriz triangular com apenas um autovalor da matriz A,
o autovalor λi , e apenas um autovetor associado, correspondente à primeira coluna da matriz. Quando o
bloco tem tamanho di,k , o autovalor λi é repetido di,k vezes na diagonal e existem di,k − 1 1’s acima da
diagonal. O mesmo autovalor λi aparecer nos blocos Ji,1 , . . . , Ji,ni , o número ni de blocos distintos em que
ele aparece correspondendo ao número de autovetores LI associados a λi . Em outras palavras, o número ni
de blocos de Jordan que aparece na matriz Ji corresponde à dimensão do autoespaço associado ao autovalor
λi :
ni = dim ker (T − λi I) .
Esta descrição ainda não permite determinar o tamanho dos diversos blocos de Jordan Ji,k que aparecem
em Ji . Isto será visto mais tarde neste capı́tulo.
Note que cada bloco Ji,k se escreve na forma
Ji,k = Di,k + Ni,k ,
onde  
λi

 λi 

 λi 
Di,k =
 
.. 

 . 

 λi 
λi
é uma matriz diagonal e  
0 1 0 ... ... 0

 0 1 ... ... 0  
 .. 
 0 . ... 0 
Ni,k = 
.. 
 .. ..

 . . . 
 0 1 
0
é uma matriz nilpotente diagonal, com tamanhos iguais a di,k . Em particular, como Di,k é um múltiplo
escalar da identidade, elas comutam:
Di,k Ni,k = Ni,k Di,k .
Como o tamanho de Ni,k é di,k , seu grau de nilpotência é exatamente di,k . Os polinômios caracterı́stico e
mı́nimo do bloco Ji,k são os mesmos, iguais a
di,k
pi,k i,k
m = pc = (x − λi ) .
Como os blocos Ji estão em forma dos blocos Ji,k (que comutam), também vale
Ji = Di + Ni ,
Di Ni = Ni Di ,
para matrizes diagonal Di e nilpotente Ni de tamanhos iguais a
di = di,1 + . . . + di,ni
com o grau de nilpotência de Ni sendo o máximo dos graus de nilpotência dos blocos Ji,1 , . . . , Ji,ni , ou seja,
ri = max {di,1 , . . . , di,ni } .
O polinômio caracterı́stico de Ji é
d
pic = (x − λi ) i .
e o seu polinômio mı́nimo é
r
pim = (x − λi ) i .
Ou seja, Ji é uma matriz que representa o operador restrição de T ao autoespaço generalizado
r
Wi = dim ker (T − λi I) i .
Finalmente, para a matriz de Jordan J vale
J = D + N,
DN = N D,
com D diagonal e N nilpotente diagonal de tamanho iguais a
n = d1 + . . . + dk
e o grau de nilpotência de N igual a

r = max {r1 , . . . , rk } .
O polinômio caracterı́stico de J é
k
Y d1 dk
pc = pic = (x − λi ) . . . (x − λi ) .
i=1
e o seu polinômio mı́nimo é

k
Y r rk
pm = pim = (x − λi ) 1 . . . (x − λi ) .
i=1
Em consequência, temos o seguinte resultado:

5.2 Proposição. Sejam
d1 dk
pc = (x − λ1 ) . . . (x − λk ) ,
r1 rk
pm = (x − λ1 ) . . . (x − λk ) ,
com ri 6 di para todo i. Então existe uma matriz que possui pc como polinômio caracterı́stico e pm como
polinômio mı́nimo.
Prova: Basta tomar uma matriz em forma de Jordan em que o bloco associado ao autovalor λi tem tamanho
di e possui o seu primeiro bloco de Jordan Ji,1 de tamanho ri , pois os outros blocos Ji,k tem tamanho menor
r
ou igual a ri e consequentemente o polinômio mı́nimo de Ji é exatamente (x − λi ) i .
5.1.2 Exemplos
5.3 Exemplo. As matrizes

1 2 2 −1 1 0
A= , B= e C=
0 1 1 0 1 1
têm a mesma forma de Jordan

1 1
J= .
0 1
De fato, todas estas matrizes tem apenas o autovalor 1 e o autoespaço correspondente com dimensão 1.
Logo, como as matrizes são 2 × 2, existe apenas um bloco de Jordan. De fato, vemos que as únicas formas
de Jordan para matrizes 2 × 2 são

λ1 0 λ 1
ou .
0 λ2 0 λ
O primeiro caso corresponde a uma matriz diagonalizável, enquanto que o segundo corresponde a uma matriz
que possui um único autovalor com autoespaço correspondente de dimensão 1. Uma matriz real que não
possui autovalores evidentemente não possuirá uma forma de Jordan.
0 1 2
A= 0 0 1 
0 0 0
tem a forma de Jordan  
0 1 0
J = 0 0 1 .
0 0 0
De fato, o único autovalor de A é 0 e a dimensão de seu autoespaço é 1.
0 0 1
B= 0 0 0 
0 0 0
tem a forma de Jordan  
0 1 0
J = 0 0 0 .
0 0 0
De fato, o único autovalor de B é 0 e a dimensão de seu autoespaço é 2. Os Exemplos 5.4 e 5.5 ilustram que
também é fácil determinar as formas de Jordan de matrizes 3×3, bastando para isso encontrar os autovalores
da matriz e as dimensões dos autoespaços associados. De fato, as únicas formas de Jordan possı́veis para
matrizes 3 × 3 são      
λ1 0 0 λ1 1 0 λ 1 0
 0 λ2 0  ,  0 λ1 0  ou  0 λ 1  .
0 0 λ3 0 0 λ2 0 0 λ
O primeiro caso corresponde a uma matriz diagonalizável (os três autovalores podem ser distintos ou iguais,
ou apenas dois dos autovalores são distintos); o segundo caso corresponde a um único autoespaço (se λ1 = λ2 )
ou dois autoespaços (se λ1 6= λ2 ) com dimensão total 2, o terceiro caso corresponde a um único autoespaço
com dimensão 1.
5.6 Exemplo. Para matrizes 4×4 em diante, a estratégia de contar as dimensões dos autoespaços associados
aos autovalores é em geral insuficiente para determinar a forma de Jordan de uma matriz. Por exemplo, as
matrizes a seguir, já dadas na forma de Jordan,
   
0 1 0 0 0 1 0 0
 0 0 1 0   0 0 0 0 
J1 =  0 0 0 0  e J2 =  0 0 0 1 
  
0 0 0 0 0 0 0 0
têm ambas apenas um único autovalor, 0, cujo autoespaço tem dimensão 2, mas são formas de Jordan
distintas por definição. De fato, J1 e J2 não são semelhantes porque J1 tem polinômio mı́nimo x3 , enquanto
que J2 tem polinômio mı́nimo x2 .
5.7 Exemplo. Por outro lado, as matrizes 4 × 4 abaixo estão em forma de Jordan distintas
   
2 1 0 0 2 1 0 0
 0 2 0 0   0 2 0 0 
A=  0 0 2 1 
 e B= ,
 0 0 2 0 
0 0 0 2 0 0 0 2
4 2
têm o mesmo polinômio caracterı́stico (x − 2) e o mesmo polinômio mı́nimo (x − 2) . Como elas representam
formas de Jordan distintas, elas não são semelhantes. De fato, o autoespaço de A associado ao autovalor 2
tem dimensão 2, enquanto que o autoespaço de B associado ao autovalor 2 tem dimensão 3.
5.1.3 Existência
Seja T ∈ Hom (V ) e suponha que T possa ser representado na forma de Jordan J em relação a alguma base
B de V . Considere um dos blocos de Jordan de J associados ao autovalor λ:
 
λ 1 0 ... 0
 0 λ 1 ... 0 
 
 0 0 λ ... 0 
Jλ =  . . .
 
 .. .. . . . . . ... 

 
 0 0 ... λ 1 
0 0 ... 0 λ
Seja B0 ⊂ B a base do subespaço invariante W associado a este bloco. Se B0 = {v1 , . . . , vr }, então
T v1 = λv1 ,
T vj = vj−1 + λvj para j = 2, . . . , r.
Dizemos que os vetores v1 , . . . , vr formam uma cadeia de Jordan de comprimento r. Observe que isso é
equivalente a
(T − λI) v1 = 0,
(T − λI) vj = vj−1 para j = 2, . . . , r.
Portanto,
r
(T − λI) vr = 0,
r−1
(T − λI) vr−1 = 0,
..
.
2
(T − λI) v2 = 0,
(T − λI) v1 = 0.
r r
Temos (T − λI) v = 0 para todo v ∈ W , o que implica que (x − λ) é o polinômio mı́nimo para T |W . Isso
motiva a seguinte definição:
5.8 Definição. Seja S ∈ Hom (V ). Dizemos que v ∈ V , v 6= 0, é um vetor S-cı́clico se existir um inteiro
positivo r tal que
S r v = 0.
O menor inteiro positivo com esta propriedade é chamado o perı́odo de v relativo a S.
Observe que dizer que r é o perı́odo de v relativo ao operador S é equivalente a dizer que o polinômio
S-anulador de v (isto é, o polinômio S-condutor para o subespaço nulo) é xr .
5.9 Lema. Se v é S-cı́clico com perı́odo r, então os vetores
v, Sv, . . . , S r−1 v,
são LI.
Prova: Os vetores v, Sv, . . . , S r−1 v serem LD é equivalente à existência de um polinômio não nulo
f = a0 + a1 x + . . . + ar−1 xr−1
de grau r − 1 tal que
f (S) v = 0,
r
o que contradiz o fato de x ser o S-anulador de v.
5.10 Definição. Dizemos que W ⊂ V é um subespaço vetorial S-cı́clico se existir algum vetor v ∈ W
tal que v é S-cı́clico de perı́odo r e W é gerado por
v, Sv, . . . , S r−1 v.

Segue do Lema 5.9 que se W é um subespaço cı́clico gerado pelo vetor (T − λI)-cı́clico v de perı́odo r, então
n o
r−1
B = (T − λI) v, . . . , (T − λI) v, v
é uma base para W . Em relação à base B, a matriz de T |W é um bloco de Jordan. De fato, denotando
r−1
v1 = (T − λI) v,
r−2
v2 = (T − λI) v,
..
.
r−j
vj = (T − λI) v,
..
.
vr−1 = (T − λI) v,
vr = v,
temos
r−1
T v1 = T (T − λI) v
r−1
= (T − λI + λI) (T − λI) v
r r−1
= (T − λI) v + λ (T − λI) v
= λv1
e, para cada j = 2, . . . , r,
r−j
T vj = T (T − λI) v
r−j
= (T − λI + λI) (T − λI) v
r−(j−1) r−j
= (T − λI) v + λ (T − λI) v
= vj−1 + λvj .
Provar a existência da forma de Jordan para um operador linear T ∈ Hom (V ) é portanto equivalente a
encontrar uma decomposição em soma direta de V por subespaços cı́clicos. Procedemos a esta tarefa agora:
5.11 Teorema (Forma de Jordan). Seja T ∈ Hom (V ) um operador linear cujo polinômio caracterı́stico
se escreve como um produto de fatores lineares.
Então existe uma base para V em relação à qual T é representado por uma matriz na forma de Jordan.
A forma de Jordan de T é única a menos da ordem de seus autovalores.
Prova: (Existência) Sejam λ1 , . . . , λk os autovalores distintos de T e
r rk
p = (x − λ1 ) 1 . . . (x − λk )
r
o polinômio mı́nimo de T . Pelo Teorema da Decomposição Espectral, se Wi = ker (T − λi I) i então Wi é
r
invariante por T , V = W1 ⊕ . . . ⊕ Wk e (x − λi ) i é o polinômio mı́nimo de Ti = T |Wi . Para demonstrar o
teorema, basta provar que cada subespaço Wi é a soma direta de subespaços (Ti − λi I)-cı́clicos. No que se
segue, denotaremos
Ni = Ti − λi I.
Observe que Ni é um operador nilpotente com polinômio mı́nimo xri .
A prova será por indução na dimensão de Wi . Seja n = dim Wi e assuma que o teorema válido para todo
espaço vetorial de dimensão menor que n (para n = 1 o resultado é trivial, pois toda matriz 1 × 1 já está na
forma de Jordan). O subespaço
im Ni = Ni (Wi )
tem dimensão estritamente menor que a de Wi , pois dim ker Ni > 1 porque λi é autovalor de Ti e pelo
Teorema do Núcleo e da Imagem que
dim Wi = dim im Ni + dim ker Ni

> dim im Ni .
[Note, porém, que em geral Wi 6= im Ni ⊕ ker Ni porque a imagem de vetores correspondentes à segunda
coluna de um bloco de Jordan fundamental de Ji é um autovetor associado a λi .] Podemos então usar a
hipótese de indução e escrever
Ni (Wi ) = U1 ⊕ . . . ⊕ Um , (5.1)
onde cada subespaço Uj é Ni -cı́clico, gerado por algum vetor Ni -cı́clico uj ∈ Uj de perı́odo sj 6 ri .
Seja vj ∈ Wi tal que
Ni vj = uj .
s s +1
Então cada vetor vj também é um vetor Ni -cı́clico, pois se Ni j uj = 0 então Ni j vj = 0. Seja Vj o
subespaço Ni -cı́clico D E
s −1 s
Vj = vj , Ni vj , . . . , Ni j vj , Ni j vj . (5.2)
Afirmamos que os subespaços cı́clicos V1 , . . . , Vm são LI. De fato, suponha que w1 ∈ V1 , . . . , wm ∈ Vm são
tais que
w1 + . . . + wm = 0.
Para verificar que cada wj = 0, observe que por definição de Vj ,
wj = fj (Ni ) vj
para algum polinômio fj de grau 6 sj . Logo, podemos escrever
f1 (Ni ) v1 + . . . + fm (Ni ) vm = 0. (5.3)
Aplicando Ni e observando que

Ni fj (Ni ) = fj (Ni ) Ni ,
obtemos
f1 (Ni ) u1 + . . . + fm (Ni ) um = 0.
Como os espaços U1 , . . . , Um são LI, isso implica que
f1 (Ni ) u1 = . . . = fm (Ni ) um = 0.
Segue que o polinômio mı́nimo xsj divide fj ; em particular, x é um fator de fj , ou seja, fj = xgj para algum
polinômio gj , o que implica
fj (Ni ) = Ni gj (Ni ) = gj (Ni ) Ni .
Substituindo esta expressão em (5.3), obtemos
g1 (Ni ) u1 + . . . + gm (Ni ) um = 0
e, novamente,
g1 (Ni ) u1 = . . . = gm (Ni ) um = 0.
s +1
Segue que x também divide gj , o que por sua vez implica que xsj +1 divide fj e, como Ni j
sj
vj = 0,
concluı́mos que
f1 (Ni ) v1 = . . . = fm (Ni ) vm = 0.
Afirmamos que
Wi = V1 ⊕ . . . ⊕ Vm + ker Ni . (5.4)
De fato, note em primeiro lugar que
Ni (Wi ) = Ni (V1 ⊕ . . . ⊕ Vm )
pois, como visto acima, para alguns polinômios fi todo vetor de Ni (Wi ) é da forma
f1 (Ni ) u1 + . . . + fm (Ni ) um = Ni [f1 (Ni ) v1 + . . . + fm (Ni ) vm ] .
Daı́, dado v ∈ Wi , temos

Ni v = Ni v 0
para algum vetor v 0 ∈ V1 ⊕ . . . ⊕ Vm e portanto
Ni (v − v 0 ) = 0,
donde v − v 0 ∈ ker Ni . Escrevendo v = v 0 + (v − v 0 ) prova (5.4).

Esta soma, no entanto, não é em geral direta. Porém, tomando uma base de Jordan B0 para V1 ⊕ . . . ⊕
Vm , podemos estender B0 a uma base para Wi adicionando vetores v1 , . . . , vs ∈ ker Ni . Cada vj satisfaz
(Ti − λi I) vj = 0, logo é um autovetor de T e o espaço de dimensão 1 gerado por vj é obviamente um espaço
cı́clico. Obtemos então a decomposição em soma direta de subespaços cı́clicos de Wi desejada:
Wi = V1 ⊕ . . . ⊕ Vm ⊕ hv1 i ⊕ . . . ⊕ hvs i
A unicidade da forma de Jordan será provada na seção a seguir (veja o Teorema 5.16 e a discussão que
lhe precede).
Observe que como a demonstração do Teorema 5.11 foi por uma indução não construtiva, ele ainda não
nos diz como obter a forma de Jordan no caso geral (e muito menos a base de vetores de V em relação à
qual o operador T é representado por uma matriz na forma de Jordan; em outras palavras, ele não nos diz
como obter as cadeias de Jordan), apenas garante que todo operador linear cujo polinômio caracterı́stico é
completamente fatorável possui uma forma de Jordan.
5.12 Corolário. Seja A uma matriz complexa. Então A é semelhante a uma matriz na forma de Jordan,
única a menos da ordem de seus autovalores.
5.13 Corolário. Matrizes que possuem formas de Jordan são semelhantes se e somente se elas possuem a
mesma forma de Jordan.
5.2 Cálculo e Unicidade da Forma de Jordan

Seja T um operador com polinômio caracterı́stico
d1 dk
pc = (x − λ1 ) . . . (x − λk )
e polinômio mı́nimo
r rk
pm = (x − λ1 ) 1 . . . (x − λk ) ,
onde λ1 , . . . , λk são os autovalores distintos de T . Usando o Teorema da Decomposição Primária, sabemos
que existe uma base B = {B1 , . . . , Bk } para T em relação à qual a matriz de T assume a forma diagonal em
blocos de Jordan  
J1 0 . . . 0
 0 J2 . . . 0 
J = . ..  .
 
.. . .
 .. . . . 
0 0 ... Jk
Cada bloco de Jordan Ji é a representação matricial de T |Wi com relação à base Bi de Wi , onde Wi =
r
ker (T − λi I) i é o autoespaço generalizado associado ao autovalor λi e dim Wi = di ; portanto, cada bloco
Ji tem tamanho di × di . Queremos escrever cada bloco de Jordan Ji na forma diagonal em blocos de Jordan
fundamentais Ji,k  
Ji,1 0 ... 0
 0 Ji,2 . . . 0 
Ji =  .
 
. .. .. 
 .. .. . . 
0 0 ... Ji,ni
em que cada bloco de Jordan fundamental Ji,k tem a forma
 
λi 1 0 ... ... 0
 0 λi 1 ... ... 0 
 
 .. 
 0 0 λi . ... 0 
Ji,k = 
 . ..
.
.. 
 .. .. .. ..
 . . . . . 

 0 0 ... 0 λi 1 
0 0 ... ... 0 λi
5.14 Definição. Para cada i = 1, . . . , k e para cada j = 1, . . . , ri definimos o ı́ndice de deficiência δji do
autovalor λi por
j
δji = dim ker (T − λi I) = nul Jij .

Observe que
δ1i = dim ker (T − λI)
é exatamente a dimensão do autoespaço associado ao autovalor λi , isto é, o número máximo de autovetores
LI associados a λi , e cada autovetor LI dá origem a um bloco de Jordan fundamental Ji,k , enquanto que
ri
δri i = dim ker (T − λi I) = di
é a dimensão do autoespaço generalizado Wi associado a λi . O ı́ndice de deficiência δj é o número de colunas

nulas no produto Jij do bloco de Jordan multiplicado j vezes, daı́ o nome; esta matriz tem tamanho di × di ,
e o número de deficiência varia desde o número mı́nimo δ1 até o número máximo δr = di , caso em que a
matriz de Jij é a matriz nula.
Na discussão que se segue omitiremos o ı́ndice i para maior clareza. Defina para cada j = 1, . . . , r
µj = número de blocos de Jordan fundamentais de tamanho j × j em Ji ,
Sabemos que não existem blocos de Jordan fundamentais de tamanho maior que r porque o polinômio
r
mı́nimo de Ji é (x − λ) .
5.15 Exemplo. Suponha que o bloco de Jordan Ji de T associado ao autovalor λi = 3 seja a seguinte matriz
12 × 12  
3 1 0 0
 0 3 1 0 
 
 0 0 3 1 
 
 0 0 0 3 
 

 3 1 

 0 3 
Ji = 
 .
 3 1 


 0 3 


 3 


 3 

 3 
3
12
Em particular, o fator (x − 3) aparece no polinômio caracterı́stico de T . Temos
µ1 = 4,
µ2 = 2,
µ3 = 0,
µ4 = 1.
Como o tamanho máximo de um bloco de Jordan fundamental de Ji é 4, segue que o polinômio mı́nimo de
4
Ji é (x − 3) , isto é, r = 4. Contando os autovalores independentes de Ji , isto é, a base para Ti − 3I, vemos
que
δ1 = 7.
Temos 3 vetores nas segundas colunas de blocos de Jordan fundamentais (os três primeiros blocos; os demais
blocos tem tamanho 1, logo não possuem segundas colunas), que juntos com os autovetores formam uma
2
base para (Ti − 3I) , logo
δ2 = 10.
Temos 1 vetor na terceira coluna de um bloco de Jordan fundamental (o primeiro bloco; os demais blocos
tem tamanho < 3, logo não possuem terceiras colunas), que junto com os vetores encontrados anteriormente
3
formam uma base para (Ti − 3I) , logo
δ3 = 11.
Por fim, temos 1 vetor na quarta coluna de um bloco de Jordan fundamental (o primeiro bloco; os de-
mais blocos tem tamanho < 4, logo não possuem quartas colunas), que junto com os vetores encontrados
4
anteriormente formam uma base para (Ti − 3I) = 0, logo
δ4 = 12.

Temos
δ1 = µ1 + µ2 + . . . + µr , (5.5)
pois δ1 é o número total de blocos de Jordan presentes em Ji e cada autovetor LI é a primeira coluna de um
bloco de Jordan. Em seguida, considere
2
δ2 = dim ker (T − λI) .
2
Cada bloco de Jordan 1×1 contribui um vetor para a base ker (T − λI) , cada bloco de Jordan 2×2 contribui
2
dois vetores para ker (T − λI) , enquanto que blocos j × j com j > 3 contribuem também dois vetores; de
fato,
2
(T − λI) v1 = 0 (T − λI) v1 = 0
2
(T − λI) v2 = v1 , (T − λI) v2 = 0,
2
(T − λI) v3 = v2 , (T − λI) v3 = v1 ,
(T − λI) v4 = v3 , =⇒ (T − λI) v4 = v2 , .
2
.. ..
. .
(T − λI) vj = vj−1 2
(T − λI) vj = vj−2 .
Portanto,
δ2 = µ1 + 2µ2 + . . . + 2µr . (5.6)
Considere agora
3
δ3 = dim ker (T − λI) .
3
Cada bloco de Jordan 1×1 contribui um vetor para a base ker (T − λI) , cada bloco de Jordan 2×2 contribui
3 3
dois vetores para ker (T − λI) , cada bloco de Jordan 3×3 contribui três vetores para ker (T − λI) , enquanto
que blocos j × j com j > 4 contribuem também três vetores; de fato,
2 3
(T − λI) v1 =0 (T − λI) v1 =0 (T − λI) v1 =0
2 3
(T − λI) v2 = v1 , (T − λI) v2 = 0, (T − λI) v2 = 0,
2 3
(T − λI) v3 = v2 , (T − λI) v3 = v1 , (T − λI) v3 = 0,
(T − λI) v4 = v3 , ⇒ (T 2
− λI) v4 = v2 , ⇒ (T 3
− λI) v4 = v1 , .
.. .. ..
. . .
(T − λI) vj = vj−1 2
(T − λI) vj = vj−2 .
3
(T − λI) vj = vj−3 .
Assim,
δ3 = µ1 + 2µ2 + 3µ3 + . . . + 3µr . (5.7)
Em geral,
j−1
X r
X
δj = µ1 + 2µ2 + 3µ3 + . . . + jµj . . . + jµr = lµl + j µl . (5.8)
l=1 l=j
Desta forma, obtemos um sistema com r equações a r incógnitas:



 µ1 + µ2 + . . . + µr = δ1
µ 1 + 2µ2 + . . . + 2µr = δ2




 µ1 + 2µ2 + 3µ3 + . . . + 3µr

= δ3
.. .. .


 . .
µ + 2µ2 + 3µ3 + . . . + (r − 1) µr−1 + (r − 1) µr = δr−1

 1



µ1 + 2µ2 + 3µ3 + . . . + (r − 1) µr−1 + rµr = δr
Os valores dos ı́ndices de deficiência δ1 , δ2 , . . . , δr devem ser calculados diretamente a partir do operador T ,
j
ou seja, determinando a dimensão do espaço solução do sistema homogêneo (T − λi I) X = 0. A matriz do
sistema acima  
1 1 1 ... 1
 1 2 2 ... 2 
 
 1 2 3 ... 3 
 
 .. .. .. . . . 
 . . . . .. 
1 2 3 ... r
possui inversa com uma forma bastante simples
 
2 −1 0 ... ... ... 0
 −1 2 −1 0 ... ... 0 
 
 0
 −1 2 −1 0 ... 0 

.. .. . . .. .. .. ..
,
 

 . . . . . . . 
 0
 ... 0 −1 2 −1 0 

 0 ... ... 0 −1 2 −1 
0 ... ... ... 0 −1 1
ou seja, uma matriz tridiagonal com −1’s nas diagonais secundárias e 2’s na diagonal principal, exceto pelo
último elemento da diagonal principal que é igual a 1. Por exemplo, para r = 5, a matriz do sistema e sua
inversa são    
1 1 1 1 1 2 −1 0 0 0
 1 2 2 2 2   −1 2 −1 0 0 
   
 1 2 3 3 3  e  0 −1 2 −1 0 
   .
 1 2 3 4 4   0 0 −1 2 −1 
1 2 3 4 5 0 0 0 −1 1
A verificação deste fato pode ser feita diretamente, multiplicando as duas matrizes e obtendo a matriz
identidade (e também pode-se provar que ambas as matrizes possuem determinante igual a 1; verifique,
calculando o determinante por escalonamento). Em particular, existe uma única solução µ1 , µ2 , . . . , µr para
o sistema, o que prova a unicidade da forma de Jordan. Resumimos a discussão acima no seguinte
teorema:
5.16 Teorema. Seja T ∈ Hom (V ) um operador linear cujo polinômio caracterı́stico é
d1 dk
pc = (x − λ1 ) . . . (x − λk )
e cujo polinômio mı́nimo é

r rk
pm = (x − λ1 ) 1 . . . (x − λk ) .
Então a forma de Jordan de T é completamente determinada pelos ı́ndices de deficiência dos autovalores de
T
j
δji = dim ker (T − λi I) , j = 1, . . . , ri , i = 1, . . . , k.
Mais precisamente, se µij é o número de blocos de Jordan de tamanho j × j associados ao autovalor λi , para
j = 1, . . . , ri , temos
 i    i 
µ1 2 −1 δ1
 µi2   −1 2 −1   δ2i 
 i    i 
 µ3

 
  −1 2 −1   δ3
  

 .. .. .. .. .
=   .. .
    
 .
   . . .  
 µi   −1 2 −1   δi 
 ri −2     ri −2 
 µir −1   −1 2 −1   δri −1 
i i
µiri −1 1 δri i
5.17 Exemplo. Encontre a forma de Jordan para a matriz

 
0 −1 −2 −1
 1 2 1 1 
A=  0
.
0 1 0 
0 0 1 1
4
O polinômio caracterı́stico de A é (x − 1) . Temos
 
−1 −1 −2 −1
 1 1 1 1 
A−I =  0
,
0 0 0 
0 0 1 0
de modo que o autoespaço associado ao autovalor 1 tem base {(1, −1, 0, 0) , (1, 0, 0, −1)} e portanto δ1 = 2.
Em seguida,  
0 0 0 0
2  0 0 0 0 
(A − I) =   0 0 0
,
0 
0 0 0 0
2
de modo que δ2 = 4 e o polinômio mı́nimo de A é (x − 1) . Segue que não há blocos de Jordan de tamanho
maior que 2 e
µ1 2 −1 δ1 2 −1 2 0
= = = .
µ2 −1 1 δ2 −1 1 4 2
Concluı́mos que a forma de Jordan da matriz A é
 
1 1 0 0
 0 1 0 0 
 .
 0 0 1 1 
0 0 0 1

 
0 −2 −1 −1
 1 2 1 1 
B=  0
.
1 1 0 
0 0 0 1
4
O polinômio caracterı́stico de B é (x − 1) . Temos
 
−1 −2 −1 −1
 1 1 1 1 
B−I =  0
,
1 0 0 
0 0 0 0
de modo que o autoespaço associado ao autovalor 1 tem base {(1, −1, 0, 0) , (1, 0, 0, −1)} e portanto δ1 = 2.
Em seguida,  
−1 −1 −1 −1
2  0 0 0 0 
(B − I) =  1
,
1 1 1 
0 0 0 0
de modo que δ2 = 3. Finalmente,  
0 0 0 0
3  0 0 0 0 
(B − I) = 
 0

0 0 0 
0 0 0 0
3
donde δ3 = 4 e o polinômio mı́nimo de B é (x − 1) . Segue que não há blocos de Jordan de tamanho maior
que 3 e         
µ1 2 −1 0 δ1 2 −1 0 2 1
 µ2  =  −1 2 −1   δ2  = −1 2 −1  3  =  0  .
µ3 0 −1 1 δ3 0 −1 1 4 1
Concluı́mos que a forma de Jordan da matriz B é
 
1 1 0 0
 0 1 1 0 
 .
 0 0 1 0 
0 0 0 1

 
3 −1 1 1 0 0
 1
 1 −1 −1 0 0 

 0 0 2 0 1 1 
C=  .
 0 0 0 2 −1 −1 

 0 0 0 0 1 1 
0 0 0 0 1 1
5
O polinômio caracterı́stico de C é x (x − 2) . É claro que temos um único bloco de Jordan de tamanho 1
para o autovalor 0. Para o autovalor 2 temos
 
1 −1 1 1 0 0
 1 −1 −1 −1 0 0 
 
 0 0 0 0 1 1 
C − 2I =  ,
 0
 0 0 0 −1 −1  
 0 0 0 0 −1 1 
0 0 0 0 1 −1
de modo que o autoespaço associado ao autovalor 2 tem base {(1, 1, 0, 0, 0, 0) , (0, 0, 1, −1, 0, 0)} e portanto
δ1 = 2. Em seguida,
 
0 0 2 2 0 0
 0 0 2 2 0 0 
 
2  0 0 0 0 0 0 
(C − 2I) =   0 0 0 0
 , de modo que δ2 = 4;
 0 0 

 0 0 0 0 2 −2 
0 0 0 0 −2 2
 
0 0 0 0 0 0

 0 0 0 0 0 0 

3  0 0 0 0 0 0 
(C − 2I) =  , de modo que δ3 = 5.

 0 0 0 0 0 0 

 0 0 0 0 −4 4 
0 0 0 0 4 −4
Como a dimensão do autoespaço generalizado associado ao autovalor 2 é 5, concluı́mos que o polinômio
3
mı́nimo do operador representado pela matriz C restrito a este subespaço é (x − 2) . Segue que não há
blocos de Jordan de tamanho maior que 3 associados ao autovalor 2 e
    
µ1 2 −1 0 δ1
 µ2  =  −1 2 −1   δ2 
µ3 0 −1 1 δ3
  
2 −1 0 2
=  −1 2 −1   4 
0 −1 1 5
 
0
=  1 .
1
Concluı́mos que a forma de Jordan da matriz C é

 
0 0 0 0 0 0
 0 2 1 0 0 0 
 
 0 0 2 1 0 0 
 .
 0 0 0 2 0 0 
 
 0 0 0 0 2 1 
0 0 0 0 0 2
5.3 Base de Jordan

Nas aplicações, muitas vezes é necessário também obter uma base de Jordan, isto é, uma base em relação
à qual a matriz do operador está na forma de Jordan. Isso deve ser feito separadamente para cada autovalor.
O trabalho é facilitado se a forma de Jordan do operador é obtida antecipadamente, através do algoritmo
obtido na seção anterior, de modo que sabemos exatamente quais e quantos são os blocos de Jordan de
determinado tamanho da forma de Jordan do operador. A partir daı́, um procedimento para obter uma
base de Jordan para cada bloco de Jordan é encontrar o vetor cı́clico que gera o bloco, começando pelo(s)
bloco(s) de maior tamanho. Vejamos alguns exemplos:
5.20 Exemplo. Encontre a forma de Jordan e sua respectiva base de Jordan para a matriz
 
2 1 0
A= 0 2 0 .
0 −1 2
3
O polinômio caracterı́stico de A é (x − 2) . Temos
 
0 1 0
A − 2I =  0 0 0 ,
0 −1 0
 
0 0 0
2
(A − 2I) =  0 0 0 .
0 0 0
Logo δ1 = 2, δ2 = 3 e
µ1 2 −1 2 1
= = ,
µ2 −1 1 3 1
de modo que a forma de Jordan da matriz A é
 
2 1 0
J = 0 2 0 
0 0 2
Uma base para ker (A − 2I) é dada pelos vetores

   
1 0
u1 =  0  e u2 =  0  .
0 1
2
Buscamos um vetor v2 ∈ ker (A − 2I) = R3 tal que v2 ∈ / ker (A − 2I), mas (A − 2I) v2 ∈ ker (A − 2I), isto
é, tal que v2 não seja um autovetor mas (A − 2I) v2 é um autovetor. Então {v1 = (A − 2I) v2 , v2 } será uma
base para o bloco de Jordan
2 1
.
0 2
Resolvendo a equação
(A − 2I) v = a1 u1 + a2 u2
para v = (x1 , x2 , x3 ), obtemos    
x2 a1
 0 = 0 
−x2 a2
donde x2 = a1 e x2 = −a2 , isto é, a1 = −a2 . Ou seja,
 
a
v= b 
−a
é o formato de um vetor v cuja imagem por A − 2I é um autovetor. Escolhendo a = 0 e b = 1, segue que

   
0 1
v2 =  1  e v1 = (A − 2I) v2 =  0  .
0 −1
Para completar, escolhemos algum autovetor que seja linearmente independente de v1 , por exemplo u1 .
Portanto, uma base de Jordan para A é dada por
     
 1 0 1 
B =  0 , 1 , 0  .
−1 0 0
 
Em particular,  
1 0 1
P = 0 1 0 
−1 0 0
é a matriz de mudança de coordenadas, de modo que J = P −1 AP , isto é,
     
2 1 0 0 0 −1 2 1 0 1 0 1
 0 2 0 = 0 1 0  0 2 0  0 1 0 .
0 0 2 1 0 1 0 −1 2 −1 0 0

5.21 Exemplo. Vimos no Exemplo 5.17 que a forma de Jordan para a matriz
 
0 −1 −2 −1
 1 2 1 1 
A=  0

0 1 0 
0 0 1 1
é  
1 1 0 0
 0 1 0 0 
J =
 0
.
0 1 1 
0 0 0 1
Uma base para o núcleo de  
−1 −1 −2 −1
 1 1 1 1 
A−I =
 0
,
0 0 0 
0 0 1 0
é dada pelos vetores    
1 1
 −1   0 
u1 = 
 0  e u2 =  0
  .

0 −1
Além disso, vimos também que
2
(A − I) = 0.
2
Buscamos vetores linearmente independentes v2 , v4 ∈ ker (A − I) = R4 tal que v2 , v4 ∈ / ker (A − I), mas
(A − I) v2 , (A − I) v4 ∈ ker (A − I), isto é, tal que v2 , v4 não sejam autovetores mas (A − I) v2 , (A − I) v4
são autovetores. Então {v1 = (A − I) v2 , v2 } e {v3 = (A − I) v4 , v4 } serão bases para os dois blocos de Jordan

1 1
0 1
que aparecem na forma de Jordan de A. Resolvendo a equação
(A − I) v = a1 u1 + a2 u2
para v = (x1 , x2 , x3 , x4 ), temos

        
−x1 − x2 − 2x3 − x4 −1 −1 −2 −1 x1 1 1
 x1 + x2 + x3 + x4   1 1 1 1   x2   −1   0 
=  = a1 
 0  + a2  0
    
 0   0 0 0 0   x3  
x3 0 0 1 0 x4 0 −1
 
a1 + a2
 −a1 
= .
 0 
−a2
Escolhendo a1 = 1 e a2 = 0, obtemos
   
−x1 − x2 − 2x3 − x4 1
 x1 + x2 + x3 + x4   −1 
 = 
 0   0 
x3 0
e daı́, escolhendo x1 = −1 e x4 = 0 obtemos x2 = x3 = 0. Segue que
   
−1 1
 0   −1 
v2 =  0  e v1 = (A − I) v2 =  0  .
  
0 0
Escolhendo agora a1 = 0 e a2 = 1, obtemos
   
−x1 − x2 − 2x3 − x4 1
 x1 + x2 + x3 + x4   0 
 = 
 0   0 
x3 −1
e daı́, escolhendo x1 = 1 e x4 = 0 obtemos x2 = 0 e x3 = −1. Segue que
   
1 1
 0   0 
 −1  e v3 = (A − I) v4 =  0
v4 =    .

0 −1
Portanto, uma base de Jordan para A é dada por
       

 1 −1 1 1 

−1   0   0   0
 
B=   0 , 0
  ,
  0  ,  −1
   .


 
0 0 −1 0
 
1 −1 1 1
 −1 0 0 0 
P = 
 0 0 0 −1 
0 0 −1 0
é a matriz de mudança de coordenadas, de modo que J = P −1 AP , isto é,
     
1 1 0 0 0 −1 0 0 0 −1 −2 −1 1 −1 1 1
 0 1 0 0   −1 −1 −1 −1  1 2 1 1   −1 0 0 0 
 =   .
 0 0 1 1   0 0 0 −1  0 0 1 0  0 0 0 −1 
0 0 0 1 0 0 −1 0 0 0 1 1 0 0 −1 0

5.22 Exemplo. Vimos no Exemplo 5.18 que a forma de Jordan para a matriz
 
0 −2 −1 −1
 1 2 1 1 
B=  0

1 1 0 
0 0 0 1
é  
1 1 0 0
 0 1 1 0 
J =
 0
.
0 1 0 
0 0 0 1
−1 −2 −1 −1
 1 1 1 1 
B−I =
 0
,
1 0 0 
0 0 0 0
é dada pelos vetores   
1 1
 0   0 
u1 =  
 −1  e  0 .
u2 =  
0 −1
−1 −1 −1 −1
2  0 0 0 0 
(B − I) = 
 1
,
1 1 1 
0 0 0 0
é dada pelos vetores  
1
 −1 
u1 , u2 e  0 .
u3 =  
0
Além disso, vimos também que
3
(B − I) = 0.
3
Buscamos um vetor linearmente independente v3 ∈ ker (B − I) = R4 tal que v3 ∈
/ ker (B − I) e v3 ∈
/
2 2 2
ker (B − I) mas (B − I) v3 ∈ ker (B − I) e (B − I) v3 ∈ ker (B − I). Então
n o
2
v1 = (B − I) v3 , v2 = (B − I) v3 , v3
será uma base para o bloco de Jordan  

1 1 0
 0 1 1 
0 0 1
que aparece na forma de Jordan de B. Resolvendo as equações
(B − I) v = a1 u1 + a2 u2 + a3 u3 ,
2
(B − I) v = a4 u1 + a5 u2 ,
para v = (x1 , x2 , x3 , x4 ), temos

          
−x1 − 2x2 − x3 − x4 −1 −2 −1 −1 x1 1 1 1
 + a2  0  + a3  −1 
 x1 + x2 + x3 + x4   1 1 1 1   x2   0     
=
  x3  = a1  −1
   
 x2   0 1 0 0   0   0 
0 0 0 0 0 x4 0 −1 0
 
a1 + a2 + a3
 −a3 
= ,
 −a1 
−a2
        
−x1 − x2 − x3 − x4 −1 −1 −1 −1 x1 1 1
 0   0 0 0 0   x2   0   0 
 x1 + x2 + x3 + x4  =  1
 = a4 
 −1  + a5  0
      
1 1 1   x3  
0 0 0 0 0 x4 0 −1
 
a4 + a5
 0 
= −a4  .

−a5
Obtemos as relações a2 = a5 = 0, a4 = −a3 e
x2 = −a1 ,
−x1 − 2x2 − x3 − x4 = a1 + a3 ,
x1 + x2 + x3 + x4 = −a3 ,
o que se simplifica para
x2 = −a1 ,
x1 + x3 + x4 = a1 − a3 .
Escolhendo a1 = 1 e a3 = 1, podemos tomar x1 = 0, x3 = 0 e segue que x2 = −1, x4 = 0.

     
0 2 1
 −1   −1  2  0 
 0  , v2 = (A − I) v3 =  −1  e v1 = (A − I) v3 =  −1
v3 =      .

0 0 0
Finalmente, escolhemos um autovetor v4 linearmente independente de v1 :

 
1
 0 
v4 = 
 0 .

−1
Portanto, uma base de Jordan para B é dada por

       

 1 2 0 1 


0   −1   −1   0 
B=   −1  ,  −1
  ,
  0 , 0
   .


 
0 0 0 −1
 
1 2 0 1
 0 −1 −1 0 
P =
 −1

−1 0 0 
0 0 0 −1
é a matriz de mudança de coordenadas, de modo que J = P −1 BP , isto é,
     
1 1 0 0 −1 0 −2 −1 0 −2 −1 −1 1 2 0 1
 0
 1 1 0  =
 1 0 1 1  1
 2 1 1  0
 −1 −1 0 
.
 0 0 1 0   −1 −1 −1 −1  0 1 1 0   −1 −1 0 0 
0 0 0 1 0 0 0 −1 0 0 0 1 0 0 0 −1

Um algoritmo pra encontrar uma base de Jordan pode ser descrito em linhas gerais da seguinte forma:

1. Primeiro encontramos uma base v11 , . . . , vδ11 para ker (T − λI), isto é, vetores linearmente indepen-
dentes que geram o autoespaço associado ao autovalor λ.

2. Em seguida, se δ2 > δ1 , encontramos uma base V11 , . . . , Vδ11 para ker (T − λI) tal que
(T − λI) vj2 = Vj1
tem δ2 − δ1 soluções linearmente independentes v12 , . . . , vδ22 −δ1 . Então
V11 , . . . , Vδ11 ∪ v12 , . . . , vδ22 −δ1

2
é uma base para ker (T − λI) .
2
3. Se δ3 > δ2 , encontramos uma base V12 , . . . , Vδ22 para ker (T − λI) tal que
(T − λI) vj3 = Vj2
tem δ3 − δ2 soluções linearmente independentes v13 , . . . , vδ33 −δ2 .

−δ1
δ2P −δ1
δ2P
Se, para j = 1, . . . , δ2 − δ1 , temos Vj2 = aji vi2 , tome Vej1 = aji Vi1 . Para j = δ2 − δ1 + 1, . . . , δ1
j=1 j=1
tome Vej1 = Vj1 . Então
n o
Ve11 , . . . , Veδ11 ∪ V12 , . . . , Vδ22 −δ1 ∪ v13 , . . . , vδ33 −δ2

3
é uma base para ker (T − λI) .
4. Continue este processo até obter uma base para W .
5.4 Complexificação de um Espaço Vetorial

5.23 Definição. Seja V um espaço vetorial real. A complexificação de V é o espaço vetorial complexo
VC = {u + iv : u, v ∈ V }
com a soma de vetores e produto de um vetor por um escalar complexo definidos de maneira natural, isto é,
(u1 + iv1 ) + (u2 + iv2 ) = (u1 + u2 ) + i (v1 + v2 )
e
(x + iy) (u + iv) = (xu − yv) + i (yu + xv) .
Vetores w = u + iv em VC tais que u, v ∈ V e v = 0 são chamados vetores reais; se u = 0, eles são chamados
vetores imaginários puros. Definimos o vetor conjugado de w por
w = (u + iv) = u − iv.

5.24 Exemplo. Temos
RC = C
e
R2C = C2 .

5.25 Proposição. Seja V um espaço vetorial real. Então toda base de V é uma base de VC .
Em particular,
dim V = dim VC .
Prova: Se {e1 , . . . , en } é uma base para V , todos os vetores u, v de V se escrevem como combinação linear
de e1 , . . . , en , digamos
u = u1 e1 + . . . + un en ,
v = v 1 e1 + . . . + v n en ,
logo o mesmo vale para todos os vetores u + iv de VC , pois
u + iv = u1 + iv 1 e1 + . . . + (un + iv n ) en .

Além disso, e1 , . . . , en são também linearmente independentes em VC , pois se existem escalares complexos
x1 + iy 1 , . . . , xn + iy n tais que
x1 + iy 1 e1 + . . . + (xn + iy n ) en = 0,

então
x1 e1 + . . . + xn en + i (y1 e1 + . . . + y n en ) = 0,

donde
x1 e1 + . . . + xn en = 0,
y 1 e1 + . . . + y n en = 0,
e portanto
x1 = . . . = xn = 0,
y 1 = . . . = y n = 0.

5.26 Definição. Dado um subespaço vetorial de W de VC , definimos o subespaço conjugado como sendo
o subespaço vetorial
W = {w : w ∈ W } .
Dizemos que W é invariante por conjugação se
W = W.
Em outras palavras, W é invariante por conjugação se w = u + iv ∈ W implica w = u − iv ∈ W também.

Note que W é um subespaço vetorial de VC apesar do operador conjugação T : VC −→ VC definido por
T (w) = w
não ser um operador linear. De fato, se z ∈ C e α ∈ VC vale
T (zw) = zw = zw = zT (w) .
5.27 Proposição. Um subespaço W de VC é invariante por conjugação se e somente se W possui uma base
formada por vetores reais.
Prova: Suponha que W possui uma base {e1 , . . . , en } de vetores reais. Se
v = v 1 e1 + . . . + v n en ∈ W,
então
v = v 1 e1 + . . . + v n en
= v 1 e1 + . . . + v n en
= v 1 e1 + . . . + v n en
= v 1 e1 + . . . + v n en
∈ W.
Reciprocamente, suponha que W é invariante por conjugação. Seja {w1 , . . . , wk } uma base para W , com
wj = uj + ivj
e uj , vj ∈ V para todo j. Como wj ∈ W segue que
wj + wj
uj = ∈ W,
2
wj − wj
vj = ∈ W.
2
Como os vetores wj são combinações lineares dos vetores uj , vj , concluı́mos que u1 , . . . , uk , v1 , . . . , vk são
vetores reais que geram W . Dentre estes vetores podemos escolher um subconjunto minimal LI que ainda
gera W , obtendo uma base de vetores reais para W .
5.28 Corolário. Um subespaço W de VC é invariante por conjugação se e somente se ele é a complexificação
de algum subespaço Z de V , isto é,
W = ZC .
Prova: Se W = ZC , pela Proposição 5.25 uma base para Z é uma base para ZC , e ela é portanto formada
por vetores reais, logo o resultado segue imediatamente da proposição anterior
Reciprocamente, suponha W invariante por conjugação. Pela proposição anterior, W possui uma base
{e1 , . . . , ek } formada por vetores reais. Considere o subespaço
Z = he1 , . . . , ek i
de V gerado pelos vetores e1 , . . . , ek . Como todo vetor de W se escreve como uma combinação linear
x1 + iy 1 e1 + . . . + (xn + iy n ) en

= x1 e1 + . . . + xn en + i (y1 e1 + . . . + y n en ) ,

segue que W = ZC .
5.29 Exemplo. O subespaço
W = hu + ivi
de VC gerado pelo vetor u + iv com u, v ∈ V , u, v 6= 0 e u não sendo um múltiplo escalar de v, não é a
complexificação de nenhum subespaço de V , porque ele não é invariante por conjugação: o vetor u − iv ∈
/ W.
De fato, os vetores de W são da forma (x + iy) (u + iv) para x, y ∈ R, logo um vetor tı́pico de W é da forma
(xu − yv) + i (yu + xv) .
Para que tenhamos u − iv ∈ W , é necessário que existam x, y ∈ R tais que

xu − yv = u
.
yu + xv = −v
Se y = 0, terı́amos x = 1 na primeira equação e x = −1 na segunda, um absurdo. Se y 6= 0, segue da

primeira e da segunda equação, respectivamente, que
x−1
v= u,
y
x+1
u=− v.
y
Isso contraria o fato que u e v não são múltiplos escalares um do outro.
O espaço vetorial complexo VC tem dimensão complexa n = dim V . Porém, o espaço vetorial VC também
pode ser visto como um espaço vetorial real. Neste caso, dim VC = 2n. De fato, se
{e1 , . . . , en }
é uma base de V , então

{e1 , . . . , en , ie1 , . . . , ien }
é uma base para VC sobre R.
5.30 Definição. Seja V um espaço vetorial real e T ∈ Hom (V ) um operador linear. A complexificação
de T é o operador linear TC ∈ L (VC ) definido por
TC (u + iv) = T u + iT v.

5.31 Proposição. Sejam V um espaço vetorial real e T ∈ Hom (V ). Então a matriz de T em relação à
base B de V é a matriz de TC em relação a B considerada como base para VC :
[TC ]B = [T ]B .
Consequentemente, os polinômios caracterı́sticos de T e TC são iguais e os polinômios mı́nimos de T e

TC são iguais.
Além disso, λ é um autovalor de TC se e somente se o seu conjugado λ é um autovalor de TC e as
multiplicidades algébricas de λ e λ são iguais.
Prova: A primeira afirmação segue do fato de que qualquer base B para V é uma base para VC que consiste
apenas de vetores reais e TC u = T u quando u é um vetor real.
Se λ é um autovalor de TC então λ é uma raiz do polinômio caracterı́stico p de TC de modo que p (λ) = 0.
Mas o polinômio caracterı́stico de TC é também
o polinômio caracterı́stico de T , logo p é um polinômio com
coeficientes reais e portanto p (λ) = p λ . Assim, tomando o conjugado em ambos os lados da equação

p (λ) = 0, concluı́mos que p λ = 0. Além disso, dividindo sucessivamente por (x − λ) x − λ , concluı́mos
que a multiplicidade algébrica de λ e λ é a mesma.
Nem todo operador linear sobre VC é a complexificação de um operador linear real sobre V : é só considerar
operadores complexos S ∈ L (VC ) tais que seus polinômios caracterı́sticos tem coeficientes complexos e λ é
um autovalor de S mas o seu conjugado λ não é.
5.5 Forma de Jordan Real

5.32 Exemplo. Se a, b ∈ R e
a b
A= ,
−b a

então o polinômio caracterı́stico de A é x2 − 2ax + a2 + b2 e seus autovalores complexos são
λ = a + bi,
λ = a − bi.
Portanto A é diagonalizável e é semelhante sobre os complexos à matriz diagonal

λ 0
D= .
0 λ
A matriz  
a b 1 0
 −b a 0 1 
B=
 0 0

a b 
0 0 −b a
tem polinômio caracterı́stico e mı́nimo
2 2 2 2
x − 2ax + a2 + b2 = (x − λ) x − λ ,
de modo que a forma de Jordan (complexa) de B é
 
λ 1 0 0
 0 λ 0 0 
J =  0
.
0 λ 1 
0 0 0 λ

5.33 Teorema (Forma de Jordan Real). Seja T ∈ Hom (V ) um operador linear real. Então existe
uma base para V em relação à qual T é representado por uma matriz diagonal em blocos, com autovalores
reais dando origem aos blocos de Jordan usuais e os autovalores complexos dando origem a blocos da forma
(chamados blocos de Jordan reais)
 
Da,b I2 0 ... ... 0
 0 Da,b I2 ... ... 0 
 
 .. 
 0
 0 Da,b . ... 0  
 . .. .. .. .. .. 
 .. . . . . . 
 
 0 0 ... 0 Da,b I2 
0 0 ... ... 0 Da,b
onde
a b 1 0
Da,b = e I2 = ,
−b a 0 1
sendo que a + ib é um autovalor complexo de TC . Esta matriz é única a menos da ordem dos blocos.
Prova: Considere o operador complexificado TC : VC −→ VC . Sejam λ1 , . . . , λk os autovalores distintos de
TC e
d1 dk
p = (x − λ1 ) . . . (x − λk ) ,
r rk
p = (x − λ1 ) 1 . . . (x − λk )
os polinômios caracterı́stico e mı́nimo de TC , respectivamente. Pelo Teorema da Decomposição Espectral, se

r
Wi = ker (T − λi I) i , então
VC = W1 ⊕ . . . ⊕ Wk .
Como TC é um operador complexo, VC possui uma base B em relação à qual a matriz de TC se escreve
na forma de Jordan . Os autovalores reais de TC dão origem aos blocos de Jordan usuais considerados
anteriormente, já que os autoespaços generalizados associados a um autovalor real possuem uma base de
autovetores generalizados reais.
Consideremos agora os autoespaços generalizados associados aos autovalores complexos. Seja
λ = a + ib
um autovalor de TC , b 6= 0 e Wλ o autoespaço generalizado associado a λ. Pela Proposição 5.31, o conjugado

λ = a − bi também é um autovalor de TC e o autoespaço generalizado Wλ associado a λ tem a mesma
dimensão de Wλ , iguais ao expoente d dos fatores x − λ e x − λ que aparecem no polinômio caracterı́stico.
Afirmamos que se
Bλ = {w1 , . . . , wm }
é uma base para Wλ , então
Bλ = {w1 , . . . , wm }
é uma base para Wλ . Para provar isso, note em primeiro lugar que se w ∈ Wλ , isto é, se
r
(TC − λI) w = 0,
então r
TC − λI w = 0,
isto é, w ∈ Wλ . De fato,
TC w = TC w
donde
TCk w = TCk w
e
r
r
X r r−k
(TC − λI) w = TCk (λI) w
k
k=1
r
X r
= λr−k TCk w
k
k=1
r

Xr r−k k
= λ TC w
k
k=1
r
X r r−k k
= λ TC w
k
k=1
r
= TC − λI w,
logo,
r
0 = (TC − λI) w
r
= TC − λI w.
Como Wλ e Wλ possuem a mesma dimensão, basta então mostrar que Bλ é LI em VC . E, de fato, se

m
X
z j wj = 0
j=1
para z 1 , . . . , z m ∈ C, tomando o conjugado desta equação obtemos

m
X
z j wj = 0
j=1
donde z j = 0 para todo j e consequentemente z j = 0 para todo j.

Escreva para j = 1, . . . , m
wj = uj + ivj .
Afirmamos que
B = {u1 , v1 , . . . , um , vm }
é uma base de vetores reais para a soma direta Wλ ⊕ Wλ (note que Wλ e Wλ são LI porque correspondem
a autovalores distintos). Para ver isso, é só observar que este conjunto gera Wλ ⊕ Wλ e tem cardinalidade
igual à
2m = dim Wλ + dim Wλ = dim Wλ ⊕ Wλ .
Segue da Proposição 5.28 que Wλ ⊕ Wλ é a complexificação de algum subespaço Wλ,λ de V que tem B como
base.
Agora escolha uma base Bλ de tal forma que os vetores w1 , . . . , wm formam uma cadeia de Jordan para
o operador complexo TC , isto é,
TC w1 = λw1 ,
TC wj = λwj + wj−1 , para j = 2, . . . , m.
Então
T u1 + iT v1 = TC w1
= λw1
= (a + ib) (u1 + iv1 )
= (au1 − bv1 ) + i (bu1 + av1 ) ,
de modo que
T u1 = au1 − bv1 ,
T v1 = bu1 + av1 ,
originando o primeiro bloco

a b
Da,b =
−b a
no bloco de Jordan real associado ao subespaço Wλ,λ . Para j = 2, . . . , m temos
T uj + iT vj = TC wj
= λwj + wj−1
= (a + ib) (uj + ivj ) + uj−1 + ivj−1
= (auj − bvj + uj−1 ) + i (buj + avj + vj−1 ) ,
originando os blocos  
1 0
I2  0 1 
= .
Da,b  a b 
−b a
5.6 Exercı́cios
5.34 Exercı́cio. Ache a forma de Jordan e uma base de Jordan para as matrizes de (a) até (i). Ache a
forma de Jordan real e uma base de Jordan real para as matrizes de (j) até (l).
     
1 2 3 3 −3 −4 2 1 2
1 −1
(a) (b)  0 1 2  (c)  0 3 5  (d)  0 2 1 
0 1
0 0 1 0 0 −1 0 0 2
       
2 0 1 0 1 1 0 0 1 0 0 0 2 1 4 0
 0 2 0 1   −1 −1 0 0   1 2 0 0   0 2 1 0 
(e) 
  (f ) 
 −2 −2 2 1 
 (g) 
  (h) 
 
12 0 3 0  1 0 2 0  0 0 2 0 
0 −1 0 0 1 1 −1 0 1 1 0 2 0 0 0 2
 
0 1 1 1 1  
 0 0 1
  0 1 0 0
1 1  0 1 0
  1 −1  0 0 1 0 
 0 0 0
(i)  1 1  (j) (k)  0 0 1  (l) 
 
 1 1 0 0 0 1 
 0 0 0 0 1  −1 0 0
1 0 0 0
0 0 0 0 0
Capı́tulo 6
Formas Bilineares e Espaços Vetoriais

Métricos
A partir deste capı́tulo, imporemos uma estrutura adicional em um espaço vetorial além de sua estrutura
linear: uma estrutura métrica definida por uma forma bilinear simétrica não degenerada.
6.1 Formas Bilineares e Métricas

6.1.1 Definição
6.1 Definição. Seja V um K-espaço vetorial. Uma forma bilinear em V é uma função f : V × V −→ K
que é linear em cada variável, isto é,
f (xv + yw, u) = xf (v, u) + yf (w, u) ,

f (u, xv + yw) = xf (u, v) + yf (u, w) ,
para todos u, v, w ∈ V e para todos x, y ∈ K.

O espaço vetorial das formas bilineares em V com a soma e multiplicação por escalar definidos da maneira
usual será denotado T 2 (V ).
6.2 Definição. Uma forma bilinear f é simétrica se
f (v, w) = f (w, v)
para todos v, w ∈ V . O subespaço vetorial das formas bilineares simétricas será denotado por Σ2 (V ).
Uma forma bilinear f é anti-simétrica se
f (v, w) = −f (w, v)
para todos v, w ∈ V . O subespaço vetorial das formas bilineares anti-simétricas será denotado por Λ2 (V ).
Uma forma bilinear f é alternada se
f (v, v) = 0
para todo v.
127
Se V é um espaço vetorial sobre um corpo de caracterı́stica diferente de 2, então uma forma bilinear f ser
alternada é equivalente a ela ser anti-simétrica, pois se f é antisimétrica,
f (v, v) = −f (v, v)
e se f é alternada,
0 = f (v + w, v + w)
= f (v, v) + f (v, w) + f (w, v) + f (w, w)
= f (v, w) + f (w, v) .
6.3 Proposição. Toda forma bilinear se escreve de maneira única (se o corpo não tem caracterı́stica 2)
como a soma de uma forma bilinear simétrica e uma forma bilinear anti-simétrica. Em outras palavras, se
K 6= Z2 ,
T 2 (V ) = Σ2 (V ) ⊕ Λ2 (V ) .
Prova. Se f ∈ T 2 (V ), defina sua parte simétrica por
f (v, w) + f (w, v)
(Sim f ) (v, w) = ,
2
e sua parte anti-simétrica por
f (v, w) − f (w, v)
(Alt f ) (v, w) = .
2
Se K 6= Z2 , a única forma bilinear simultaneamente simétrica e anti-simétrica é a forma nula.
6.4 Definição. Dizemos que dois vetores v, w ∈ V são ortogonais se
f (v, w) = f (w, v) = 0.
Uma forma bilinear f é não degenerada se
f (v, u) = 0
para todo v ∈ V implicar u = 0 e se

f (u, w) = 0
para todo w ∈ V implicar u = 0.
Em outras palavras, em um espaço vetorial dotado de uma forma bilinear não degenerada, um vetor não
nulo não pode ser ortogonal a todos os vetores do espaço, nem à direita, nem à esquerda.
6.5 Definição. Seja V um espaço vetorial. Uma métrica em V é uma forma bilinear simétrica não
degenerada, que geralmente denotaremos por g = h·, ·i.
hv, wi é chamado o produto interno de v e w.
Um espaço vetorial V dotado de uma métrica g é chamado um espaço vetorial métrico e denotado
(V, g) quando for necessário explicitar a métrica.
Uma forma bilinear anti-simétrica não degenerada é chamada uma forma simplética, e espaços vetoriais
dotados de uma forma simplética são chamados espaços vetoriais simpléticos. Eles não serão estudos
nestas notas.
6.1.2 Matriz de uma Forma Bilinear

6.6 Definição. Sejam f ∈ T 2 (V ) e B = {e1 , . . . , en } uma base para V .
Definimos os coeficientes de f em relação a B por
fij = f (ei , ej )
e a matriz F ∈ Mn (K) de f nesta base por
F = (fij ) .

Assim, fixada uma base para V , esta associação define um isomorfismo entre espaços vetoriais
T 2 (V ) −→ Mn (K) ,
de modo que
dim T 2 (V ) = n2 .
Note que a matriz de uma forma bilinear simétrica é uma matriz simétrica e a matriz de uma forma bilinear
anti-simétrica é uma matriz anti-simétrica.
6.7 Proposição. Se f ∈ T 2 (V ), B = {e1 , . . . , en } é uma base para V e F é a matriz de f em relação a B,
então para todos v, w ∈ V vale
n
X
f (v, w) = fij v i wj .
i,j=1
Em particular,
f (v, w) = v t F w,
f (w, v) = wt F t v.
Prova. Se
[v]B = v 1 , . . . , v n ,

[w]B = w1 , . . . , wn ,

temos
 
Xn n
X
f (v, w) = f  v i ei , w j ej 
i=1 j=1
n
X
= v i wj f (ei , ej )
i,j=1
X n n
X
= vi Fji wj
i=1 j=1
n
X i
= v i (F [w]B )
i=1
t
= [v]B F [w]B .
Como a transposta de um escalar é ele próprio, temos
t
f (w, v) = wt F v = wt F v = v t F t w.

6.8 Corolário. Uma forma bilinear é não degenerada se e somente se sua matriz associada é invertı́vel.
Em particular, a matriz de uma métrica é uma matriz simétrica invertı́vel.
Prova. Suponha f degenerada na segunda variável, isto é, que existe u ∈ V , u 6= 0, tal que
f (v, u) = 0
para todo v ∈ V . Então

v t (F u) = 0
para todo v ∈ V , donde
F u = 0,
o que ocorre se e somente se F não é invertı́vel. Como
f (u, v) = v t F t u,
o mesmo resultado vale se f é degenerada na primeira variável, pois F é invertı́vel se e somente se F t é.
6.9 Proposição. Sejam f ∈ T 2 (V ) e F, F 0 as matrizes de f em relação às bases
B = {e1 , . . . , en } ,
B0 = {e01 , . . . , e0n } ,
respectivamente. Se P = PB→B0 a matriz de mudança de base de B para B0 , então
F = P t F 0 P.
Prova. Por definição,

[v]B0 = P [v]B
e
t
f (v, w) = [v]B0 F 0 [w]B0
t
= [v]B F [w]B .
Portanto,
t
f (v, w) = [v]B0 F 0 [w]B0
t
= (P [v]B ) F 0 P [w]B
t
= [v]B P t F 0 P [w]B ,


6.10 Definição. Dizemos que duas matrizes A, B ∈ Mn (K) são congruentes se existe uma matriz invertı́vel
P tal que
A = P t BP.

Assim como a semelhança de matrizes, a congruência de matrizes é uma relação de equivalência.
Seja f ∈ T 2 (V ) uma forma bilinear. Então f induz dois morfismos
Lf : V −→ V ∗ ,
Rf : V −→ V ∗ ,
definindo
[Lf (v)] (w) = f (v, w) ,
[Rf (v)] (w) = f (w, v) .
f é uma forma bilinear simétrica se e somente se
Lf = Rf .
6.11 Proposição. Seja f ∈ T 2 (V ) uma forma bilinear. Se B é uma base para V e F é a matriz de f em
relação a esta base, então
[Lf ]B,B∗ = F t ,
[Rf ]B,B∗ = F.
Em particular,
dim ker Lf = dim ker Rf ,
dim im Lf = dim im Rf .
Prova: Seja B = {e1 , . . . , en }. Se A = [Lf ]B,B∗ , temos
n
X
Lf (ei ) = Aki e∗k ,
k=1
donde
Fji = f (ei , ej ) = [Lf (ei )] (ej )
Xn Xn
= Aki e∗k (ej ) = Aki δkj
k=1 k=1
= Aji .
Se B = [Rf ]B,B∗ , temos
n
X
Rf (ej ) = Bjk e∗k ,
k=1
donde
Fji = f (ei , ej ) = [Rf (ej )] (ei )
Xn X n
k ∗
= Aj ek (ei ) = Akj δki
k=1 k=1
= Aij .
A última afirmação segue do Corolário 2.50.
6.12 Definição. Definimos o posto de uma forma bilinear f como sendo
rank f = dim im Lf = dim im Rf .

6.13 Corolário. O posto de uma forma bilinear é o posto de sua matriz em relação a qualquer base.
Além de ser uma consequência da Proposição 6.11, este resultado também segue da Proposição 6.9, já que
matrizes congruentes possuem o mesmo posto.
6.1.3 Exemplos
6.14 Definição. Se V é um espaço vetorial métrico real, dizemos que sua métrica é definida positiva se
para todo v ∈ V vale
hv, vi > 0,
e definida negativa se para todo v ∈ V vale
hv, vi < 0.

6.15 Exemplo. A métrica euclidiana em Rn é a métrica definida positiva dada nos vetores da base
canônica por
hei , ej i = δij
Rn dotado desta métrica é chamado o espaço euclidiano En .

Em relação a base canônica, a métrica euclidiana é dada por
n
X n
X
hv, wi = v T w = δij v i wj = v i wi ,
i,j=1 i=1
isto é, a matriz associada à métrica euclidiana na base canônica é a matriz identidade.
6.16 Exemplo. Seja V um espaço vetorial real com base
B = {e1 , . . . , en } .
Para 0 6 p 6 n e α1 , . . . , αn ∈ R, αi > 0 para todo i, definimos a métrica
p
X n
X
i i
hv, wi = − αi v w + αi v i wi ,
i=1 i=p+1
onde v = v 1 , . . . , v n e w = w1 , . . . , wn são as coordenadas de v e w em relação à B.

De fato, esta é claramente uma forma bilinear simétrica. Para ver que ele não é degenerada, suponha
que v ∈ V é um vetor tal que
hv, wi = 0
para todo w ∈ V . Isso vale em particular para os vetores e1 , . . . , en da base. Mas hv, ei i = ±αi v i , logo v i = 0
para todo i e portanto ela é não degenerada.
Se p = 0 esta métrica é definida positiva, se p = n ela é definida negativa e se 0 < p < n ela não é nem
definida positiva nem definida negativa, pois vetores da forma
v = v 1 , . . . , v p , 0, . . . , 0

satisfazem hv, vi < 0, enquanto que vetores v da forma
v = 0, . . . , 0, v p+1 , . . . , v n

satisfazem hv, vi > 0. Se q = n − p, dizemos que esta é uma métrica de assinatura (p, q).
6.17 Exemplo. Uma métrica de Lorentz em um espaço vetorial real é uma métrica de assinatura (1, n).
6.18 Definição. Rn+1 dotado da métrica de Lorentz canônica
hei , ej i = ηij
é chamado o espaçotempo de Minkowski Mn+1 , onde o eta de Kronecker η é definido por


 −1 se i = j = 0,
ηij = 1 se i = j > 0,
0 se i 6= j.

Por exemplo, em M4 (o espaçotempo de teoria da relatividade) temos
hv, wi = −v 0 w0 + v 1 w1 + v 2 w2 + v 3 w3 ,
2 2 2 2
q (v) = − v 0 + v 1 + v 2 + v 3 .
A métrica de Lorentz escreve-se na base canônica de Rn+1 na forma
n
X n
X
hv, wi = v T ηw = ηij v i wj = −v0 w0 + v i wi ,
i,j=0 i=1
isto é, a matriz associada à métrica de Lorentz na base canônica é a matriz η. Por exemplo, quando n+1 = 4,
 
−1 0 0 0
 0 1 0 0 
η=  0 0 1 0 .

0 0 0 1

6.19 Exemplo. Seja V um espaço vetorial real com base
B = {e1 , . . . , en } .
Para 0 6 p 6 n, 0 6 r 6 n e α1 , . . . , αp , αp+r+1 , . . . , αn ∈ R, αi > 0 para todo i, definimos mais

geralmente a forma bilinear
Xp Xn
f (v, w) = − αi v i wi + αi v i wi ,
i=1 i=p+r+1
isto é,
p
X p+q
X n
X
f (v, w) = − αi v i w i + αi v i wi + 0v i wi ,
i=1 i=p+1 i=p+q+1
onde v = v 1 , . . . , v n e w = w1 , . . . , wn são as coordenadas de v e w em relação à B.

Se r = 0, temos a métrica do exemplo anterior. Se r 6= 0, esta forma bilinear é degenerada. De fato,

vetores da forma
v = 0, . . . , 0, 0, . . . , 0, v p+q+1 , . . . , v n

satisfazem hv, wi = 0 para todo w ∈ V .

Se r = n − (p + q), dizemos que esta é uma forma bilinear de assinatura (p, q, r).
6.2 Formas Quadráticas

6.20 Definição. Sejam V um K-espaço vetorial e f uma forma bilinear em V .
A forma quadrática associada a f é a função q : V −→ K definida por
q (v) = f (v, v) .
Dizemos que v é um vetor do tipo

luz se q (v) = 0,
espaço se q (v) > 0,
tempo se q (v) < 0.
Dizemos que v é um vetor unitário se q (v) = ±1.

Dizemos que uma base B = {e1 , . . . , en } para V é ortonormal se os seus vetores são dois a dois ortogonais
e unitários, ou seja,
hei , ej i = ±δij .

6.21 Exemplo. Para a forma quadrática q associado à métrica de assinatura (p, q) definido no Exemplo
6.14 com αi = 1 para todo i, isto é,
p
X n
X
hv, wi = − v i wi + v i wi ,
i=1 i=p+1
onde v = v 1 , . . . , v n e w = w1 , . . . , wn são as coordenadas de v e w em relação a uma base B =

{e1 , . . . , en } fixada, temos

p n
X 2 X 2
q (v) = − vi + vi .
i=1 i=p+1
A própria base B é ortonormal, com

−1 se i = 1, . . . , p,
q (ei ) =
1 se i = p + 1, . . . , n.

6.22 Exemplo. Se q é uma forma quadrática associada a uma métrica definida positiva ou definida negativa,
então v é um vetor do tipo luz se e somente se v = 0.
Se q é associada a uma métrica indefinida, então mesmo que v 6= 0 pode acontecer que v seja um vetor
do tipo luz. Por exemplo, para a forma quadrática do Exemplo 6.14, se p 6= 0, n temos
q (ei + ej ) = 0
para todos 1 6 i 6 p e p + 1 6 j 6 n.
Mais ainda, é possı́vel obter uma base para V composta inteiramente de vetores do tipo luz. No caso
p = 1, basta tomar
B0 = {e1 + e2 , e1 − e2 , e1 + e3 , . . . , e1 + en } .
Para ver que B0 é uma base, basta verificar que os n vetores que a formam são LI. Se
n
X
x1 (e1 + e2 ) + x2 (e1 − e2 ) + xi (e1 + ei ) = 0,
i=3
então !
n
X n
X
i
e1 + x1 − x2 e2 + xi ei = 0.

x
i=1 i=3
Como e1 , . . . , en são LI, segue que

n
X
xi = 0,
i=1
x1 − x2 = 0,
x3 = . . . = xn = 0,
donde xi = 0 para todo i.
6.23 Exemplo. Se q é uma forma quadrática associada a uma forma bilinear anti-simétrica em um espaço
vetorial sobre um corpo de caracterı́stica diferente de 2, então q ≡ 0, pois em tais corpos formas bilineares
anti-simétricas são alternadas.
Note que
q (v) = q (−v) ,
para todo v ∈ V , pois
q (−v) = h−v, −vi = hv, vi = q (v) .
De modo geral, para todo α ∈ K
q (αv) = α2 q (v) .
6.24 Proposição (Identidade Polar). Se f é uma forma bilinear e q sua forma quadrática associada,
então
f (v, w) + f (w, v) = q (v + w) − q (v) − q (w)
e
2f (v, w) + 2f (w, v) = q (v + w) − q (v − w) .
Em particular, se f é simétrica, vale
1
f (v, w) = [q (v + w) − q (v) − q (w)] .
2
e
1
[q (v + w) − q (v − w)] .
f (v, w) =
4
Portanto, uma forma bilinear simétrica é completamente determinada por sua forma quadrática associada
e toda forma bilinear simétrica está associada a uma única forma quadrática.
Prova. Se f é bilinear, temos
q (v + w) − q (v) − q (w)
= f (v + w, v + w) − f (v, v) − f (w, w)
= f (v, v) + f (v, w) + f (w, v) + f (w, w) − f (v, v) − f (w, w)
= f (v, w) + f (w, v) ,
q (v + w) − q (v − w) = f (v + w, v + w) − f (v − w, v − w)
= f (v, v) + f (v, w) + f (w, v) + f (w, w)
− [f (v, v) − f (v, w) − f (w, v) + f (w, w)]
= 2f (v, w) + 2f (w, v) .

6.25 Proposição (Teorema de Pitágoras). Se q é uma forma quadrática associada a uma métrica, então
v, w são ortogonais se e somente se vale a identidade de Pitágoras
q (v + w) = q (v) + q (w) .
Prova: Pela primeira identidade polar da proposição anterior temos
q (v + w) = q (v) + 2 hv, wi + q (w) .
Logo, v, w satisfazem a identidade de Pitágoras se e somente se hv, wi = 0.

6.26 Proposição (Identidade do Paralelogramo). Se q é uma forma quadrática associada a uma forma
bilinear f , então
q (v + w) + q (v − w) = 2 [q (v) + q (w)] . (6.1)
Prova: Temos
q (v + w) + q (v − w) = f (v + w, v + w) + f (v − w, v − w)
= f (v, v) + f (v, w) + f (w, v) + f (w, w)
+ f (v, v) − f (v, w) − f (w, v) + f (w, w)
= 2f (v, v) + 2f (w, w)
= 2q (v) + 2q (w) .
6.3 Espaços Vetoriais Normados Reais

6.27 Definição. Seja V um espaço vetorial real. Uma norma em V é uma função k·k : V −→ [0, +∞) que
satisfaz as seguintes propriedades:
(i) para todo v 6= 0 vale
kvk > 0;
(ii) para todo v ∈ V e para todo α ∈ R vale
kαvk = |α| kvk ;
(iii) (Desigualdade Triangular) para todos v, w ∈ V vale
kv + wk 6 kvk + kwk .
Um espaço vetorial V dotado de uma norma k·k é chamado um espaço vetorial normado, denotado
(V, k·k) quando for necessário explicitar a norma.
Para espaços vetoriais reais, uma norma pode ser definida a partir de uma métrica definida positiva,
enquanto que uma métrica definida positiva pode ser definida a partir de uma norma somente se esta
satisfaz a identidade do paralelogramo, como veremos a seguir. No caso de espaços vetoriais complexos,
um resultado análogo vale quando se considera produtos hermitianos, que serão considerados no próximo
capı́tulo.
6.28 Definição. Seja V um espaço vetorial métrico positivo definido real e normado. Dizemos que a norma
é induzida pela métrica se
p
kvk = hv, vi.
Em particular, se q é a forma quadrática associada a h·, ·i, então
2
q (v) = kvk .

O seguinte conceito é extremamente útil e foi usado na demonstração da desigualdade de Cauchy-Schwarz:
6.29 Definição. Seja V um espaço vetorial métrico real positivo definido. Sejam v, w ∈ V com w 6= 0.
O vetor
hv, wi
Projw v = 2 w
kwk
é chamado a projeção ortogonal de v na direção w.

A componente de v ortogonal a w é o vetor
v ⊥w = v − Projw v
hv, wi
=v− 2 w.
kwk

6.30 Proposição. A componente ortogonal de v à direção de w é ortogonal a w.
Prova: Temos
hv, wi
v ⊥w , w = hv, wi −

2 hw, wi = 0.
kwk

6.31 Proposição (Desigualdade de Cauchy-Schwarz). Seja V um espaço vetorial métrico positivo
definido real e normado, cuja norma é induzida pela métrica. Então
|hv, wi| 6 kvk kwk
Prova: Se w = αv, então
2
|hv, wi| = |hv, αvi| = |α hv, vi| = |α| kvk = kvk (|α| kvk) = kvk kwk ,
ou seja, a igualdade na desigualdade de Cauchy-Schwarz é atingida quando um dos vetores é múltiplo escalar
do outro.
Se w não é múltiplo escalar de v, em particular w 6= 0 e podemos considerar a componente de v ortogonal

aw
hv, wi
v ⊥w = v − 2 w.
kwk
Temos
0 6 v ⊥w , v ⊥w

* +
hv, wi hv, wi
6 v− 2 w, v − 2 w
kwk kwk
* +
hv, wi
= v− 2 w, v
kwk
2 hv, wi
= kvk − 2 hw, vi
kwk
2
2 |hv, wi|
= kvk − 2 ,
kwk
isto é,
2
2 |hv, wi|
kvk > 2 ,
kwk
ou seja
2 2 2
|hv, wi| 6 kvk kwk ,
6.32 Proposição. Seja V um espaço vetorial métrico real positivo definido. Então
p
kvk = hv, vi
define uma norma em V .
Prova: A condição (i) da Definição 6.27 decorre da métrica ser definida positiva.
A condição (ii) da Definição 6.27 decorre de
p p p p
kαvk = hαv, αvi = α2 hv, vi = α2 hv, vi = |α| hv, vi = |α| kvk .
A desigualdade triangular segue da desigualdade de Cauchy-Schwarz (note que na demonstração desta em
nenhum momento foi usada a desigualdade triangular):
2
kv + wk = hv + w, v + wi
2 2
= kvk + 2 hv, wi + kwk
2 2
6 kvk + 2 |hv, wi| + kwk
2 2
6 kvk + 2 kvk kwk + kwk
2
= (kvk + kwk) .

De agora em diante, se V é um espaço vetorial métrico positivo definido, V é assumido um espaço vetorial
normado com a norma induzida pela métrica.
Segue da desigualdade de Cauchy-Schwarz em particular que
hv, wi
−1 6 6 1.
kvk kwk
6.33 Definição. Seja V um espaço vetorial métrico positivo definido real. Dados dois vetores v, w ∈ V
definimos o seu ângulo ] (v, w) por
hv, wi
] (v, w) = arccos .
kvk kwk

Em particular, se v, w são vetores ortogonais, então] (v, w) = π/2.
Nos próximos três resultados a seguir, V é um espaço vetorial métrico real positivo definido.
6.34 Proposição (Identidades Polares). Para todos v, w ∈ V valem
1 2 2 2

hv, wi = kv + wk − kvk − kwk .
2
e
1 2 1 2
hv, wi = kv + wk − kv − wk .
4 4
Prova: Segue da Proposição 6.24, lembrando que se q é a forma quadrática associada a h·, ·i, então q (v) =
2
kvk .
6.35 Proposição (Teorema de Pitágoras). v, w ∈ V são ortogonais se e somente se vale a identidade

de Pitágoras
2 2 2
kv + wk = kvk + kwk .
Prova: Pela primeira identidade polar da proposição anterior temos

2 2 2
kv + wk = kvk + 2 hv, wi + kwk .
Logo, v, w satisfazem a identidade de Pitágoras se e somente se hv, wi = 0.

6.36 Proposição (Identidade do Paralelogramo). Para todos v, w ∈ V vale

2 2 2 2
kv + wk + kv − wk = 2 kvk + kwk .
Em particular, para que uma norma seja derivada de uma métrica definida positiva, uma condição necessária
é que ela satisfaça a identidade do paralelogramo.
Prova: Segue da Proposição 6.26.
6.37 Exemplo. Em Rn podemos definir a norma do máximo
kvk = max v i

∞ i=1,...,n
e a norma da soma
n
X i
kvk+ = v .
i=1
Nenhuma destas normas é derivada de uma métrica definida positiva, pois elas não satisfazem a identidade
do paralelogramo. De fato, se v = e1 e w = e2 , então
2 2
kv + wk∞ + kv − wk∞ = 1 + 1 = 2,

2 2
2 kvk∞ + kwk∞ = 2 (1 + 1) = 4,
e
2 2
kv + wk+ + kv − wk+ = 22 + 22 = 8,

2 2
2 kvk+ + kwk+ = 2 (1 + 1) = 4,

6.38 Proposição. Seja V um espaço vetorial real normado cuja norma k·k satisfaz a identidade do parale-
logramo
2 2 2 2
Então a identidade polar
1 2 1 2
hv, wi := kv + wk − kv − wk
4 4
define uma métrica definida positiva h·, ·i em V tal que a norma k·k é induzida por ela.
Em particular, uma norma é derivada de uma métrica definida positiva se e somente se ela satisfaz a
identidade do paralelogramo.
Prova: A simetria segue de
1 2 1 2
hv, wi = kv + wk − kv − wk
4 4
1 2 1 2
= kw + vk − kw − vk
4 4
= hw, vi .
Em particular, basta provar a linearidade na primeira variável. Temos
1 2 1 2 1 2 1 2
hv, ui + hw, ui = kv + uk − kv − uk + kw + uk − kw − uk
4 4 4 4
1 2 2
1
2 2

= kv + uk + kw + uk − kv − uk + kw − uk
4 4
1 2 2

= kv + u + w + uk + kv + u − (w + u)k
8
1 2 2

− kv − u + w − uk + kv − u − (w − u)k
8
1 2 2
1
2 2

= kv + u + w + uk + kv − wk − kv − u + w − uk + kv − wk
8 8
1 2
1
2

= kv + u + w + uk − kv − u + w − uk
8 8
1 2 2 2

= 2 kv + w + uk + 2 kuk − k(v + w + u) − uk
8
1 2 2 2

− 2 kv + w − uk + 2 kuk − k(v + w − u) + uk
8
1 2 2
1
2 2

= 2 kv + w + uk − kv + wk − 2 kv + w − uk − kv + wk
8 8
1 2 1 2
= kv + w + uk − kv + w − uk
4 4
= hv + w, ui .
Vamos provar agora que

hαv, wi = α hv, wi
para todo α ∈ R em etapas. Se α = n ∈ N, por iteração de (i) da Definição 6.27 obtemos
hnv, wi = n hv, wi ;
por exemplo, para n = 2 temos
h2v, wi = hv + v, wi = hv, wi + hv, wi = 2 hv, wi .
Se n = −1, notando que
1 2 1 2
h0, wi = k0 + wk − k0 − wk
4 4
1 2 1 2
= kwk − k−wk
4 4
1 2 1 2
= kwk − kwk
4 4
= 0,
escrevemos
0 = h0, wi = hv − v, wi = hv, wi + h−v, wi ,
de modo que
h−v, wi = − hv, wi .
Daı́, se n ∈ N,
h−nv, wi = hn (−v) , wi = n h−v, wi = (−1) n hv, wi = −n hv, wi .
Portanto, hαv, wi = α hv, wi para todo α ∈ Z. Em seguida, para provar que

1 1
v, w = hv, wi
n n
para todo n ∈ N, notamos que
1 1
hv, wi = n v, w = n v, w .
n n
Reunindo os dois resultados, concluı́mos que hαv, wi = α hv, wi para todo α ∈ Q. Para obter o resultado
geral para qualquer α ∈ R, observe que a função norma é contı́nua em um espaço normado e como a métrica
foi definida a partir da norma, ela também é uma função contı́nua. Assim, dado qualquer α ∈ R, tomamos
uma sequência (αn ) ⊂ Q tal que αn → α e obtemos
hαv, wi = lim hαn v, wi
= lim (αn hv, wi)
= (lim αn ) hv, wi
= α hv, wi .
Concluı́mos portanto que h·, ·i é uma forma bilinear simétrica.
Finalmente, se v 6= 0, temos
1 2 1 2
hv, vi = kv + vk − kv − vk
4 4
1 2
= k2vk
4
2
= kvk
>0
e portanto h·, ·i é definida positiva.
6.4 O Subespaço Ortogonal

6.39 Definição. Seja V um espaço vetorial métrico. Dizemos que um subespaço W ⊂ V é não degenerado
se a métrica de V restrita a W é uma métrica. Caso contrário, dizemos que W é degenerado.
Em outras palavras, um subespaço W de um espaço vetorial métrico (V, g) é não degenerado se a métrica
g de V restrita a W continua sendo uma forma bilinear não degenerada, isto é, se (W, g|W ) é um espaço
vetorial métrico. Subespaços do tipo tempo (em que todos os vetores não nulos do subespaço são do tipo
tempo) ou do tipo espaço (em que todos os vetores não nulos do subespaço são do tipo tempo) são sempre
não degenerados, mas podem existir outros subespaços não degenerados que não são do tipo tempo nem do
tipo espaço.
6.40 Exemplo. Em um espaço vetorial métrico positivo ou negativo definido, todo subespaço não nulo é
não degenerado.
No espaço de Minkowski M4 o subespaço do tipo tempo he0 i, o subespaço do tipo espaço he1 , e2 , e3 i e o
subespaço que não é nem do tipo tempo nem do tipo espaço he0 , e1 i são não degenerados, enquanto que o
subespaço he0 + e1 i é degenerado, porque e0 + e1 é do tipo luz.
Assim, em um espaço vetorial métrico que não é positivo ou negativo definido, um subespaço pode ou não
herdar a estrutura métrica do espaço ambiente.
6.41 Definição. Seja V um espaço vetorial métrico. Dado um subespaço vetorial W ⊂ V definimos o
subespaço vetorial ortogonal a W
W ⊥ = {v ∈ V : hv, wi = 0 para todo w ∈ W } .

De fato, W ⊥ é um subespaço ortogonal porque uma métrica sendo uma forma bilinear, combinações lineares
de vetores ortogonais a W são ortogonais a W .
6.42 Proposição. Seja V um espaço vetorial métrico. Se W ⊂ V é um subespaço, então
dim W + dim W ⊥ = dim V.
Prova: Seja {e1 , . . . , em } uma base para W e complete esta base até uma base {e1 , . . . , em , em+1 , . . . en }
para V . Um vetor v ∈ V pertence a W ⊥ se e somente se hv, ei i = 0 para i = 1, . . . , m. Denotando
gij = hei , ej i
e
n
X
v= v j ej ,
j=1
segue que v ∈ W ⊥ se e somente se v satisfaz o sistema

n
X
gij v j = 0 para i = 1, . . . , m.
j=1
Como a matriz G = (gij ) de uma métrica é invertı́vel, o sistema possui exatamente n − m variáveis livres,
portanto o subespaço solução deste sistema tem dimensão n − m.
6.43 Corolário. Seja V um espaço vetorial métrico. Se W ⊂ V é um subespaço, então
⊥
W⊥ = W.
Prova: Temos ⊥
W⊥ = v ∈ V : hv, wi = 0 para todo w ∈ W ⊥ ⊃ W

por definição. Como
dim W + dim W ⊥ = dim V,

⊥
dim W ⊥ + dim W ⊥ = dim V,
donde ⊥
dim W = dim W ⊥ ,
⊥
segue que W ⊥ = W.
6.44 Proposição. Seja V um espaço vetorial métrico. Um subespaço W ⊂ V é não degenerado se e somente
se
V = W ⊕ W ⊥.
Neste caso, W ⊥ é chamado o complementar ortogonal de W .

Prova: Pelo Teorema 1.39,
dim W + W ⊥ + dim W ∩ W ⊥ = dim W + dim W ⊥ .

(6.2)
Disso e do resultado anterior, segue que V = W ⊕ W ⊥ se e somente se W ∩ W ⊥ = 0. Mas
W ∩ W ⊥ = {w ∈ W : w ⊥ W } ,
logo W ∩ W ⊥ = 0 se e somente se W é não degenerado.

6.45 Exemplo. No espaço de Minkowski M4 , a métrica é definida positiva quando restrita ao subespaço
do tipo espaço
W = he1 , e2 , e3 i
e definida negativa quando restrita ao subespaço do tipo tempo
W ⊥ = he0 i .
Estes subespaços são um o complementar ortogonal do outro.

Se
Z = he0 + e1 i ,
então (porque e0 + e1 é do tipo luz, logo é ortogonal a si próprio)
Z ⊥ = he0 + e1 , e2 , e3 i ,
e eles não são complementares.

6.5 Existência de Bases Ortonormais e Teorema de Sylvester

6.5.1 Existência de Bases Ortonormais
6.46 Lema. Se V é um espaço vetorial métrico não nulo, então existe u ∈ V tal que
q (u) 6= 0.
Prova. Como uma métrica é não degenerada, existem vetores v, w ∈ V tais que
hv, wi =
6 0.
Se q (v) 6= 0 ou q (w) 6= 0, a afirmação está provada. Caso contrário, se q (v) = q (w) = 0, isto é, v e w são
ambos do tipo luz, escolhemos u = v + w, pois
q (v + w) = hv + w, v + wi
= hv, vi + 2 hv, wi + hw, wi
= q (u) + 2 hv, wi + q (w)
= 2 hv, wi
6= 0.

O lema mostra que um espaço vetorial métrico não nulo não pode ser constituı́do apenas de vetores do tipo
luz.
6.47 Teorema (Existência de Bases Ortonormais). Se V é um espaço vetorial métrico real ou complexo
de dimensão finita não nulo, então V possui uma base ortonormal.
Prova. A demonstração será por indução sobre n = dim V . Seja u ∈ V tal que q (u) 6= 0 como no lema.
Caso n = 1. Basta tomar
u
e1 = p
q (u)
se q (u) > 0, caso em que q (e1 ) = +1 (métrica definida positiva) ou
u
e1 = p ,
−q (u)
se q (u) < 0, caso em que q (e1 ) = −1 (métrica definida negativa); no caso complexo, não há diferença.
Caso n > 1. Seja W = hui. Como W é um subespaço não degenerado, segue da Proposição 6.44 que
V = W ⊕ W ⊥.
Pelo caso anterior e pela hipótese de indução (dim W ⊥ = n − 1), existem bases ortonormais
B0 = {e1 } ,
B00 = {e2 , . . . , en−1 }
para W e W ⊥ , respectivamente. Então

B = B0 ∪ B00 = {e1 , e2 , . . . , en }
é uma base ortonormal para V .
6.48
√ Exemplo.
√ Se V é um espaço vetorial métrico sobre um corpo K em que existe α ∈ K tal que ambos
α e −α não existem, então V pode não possuir uma base ortonormal, mesmo que sua dimensão seja 1.
Por exemplo, se v ∈ R2 é um vetor tal que kvk 6= 1 então V = Qv = {xv : x ∈ Q} com a métrica induzida é
um espaço vetorial racional de dimensão 1 que não possui vetores unitários.
6.5.2 Teorema de Sylvester para Métricas Reais

6.49 Teorema (Teorema de Sylvester). Se V é um espaço vetorial métrico real de dimensão n = p + q
e B = {e1 , . . . , en } é uma base ortonormal com

−1 se i = 1, . . . , p,
q (ei ) =
1 se i = p + 1, . . . , p + q,
então os valores de p, q são os mesmos para qualquer base ortonormal.

Prova. Sejam
B = {e1 , . . . , ep , ep+1 , . . . , en } ,
B0 = e01 , . . . , e0p0 , e0p0 +1 , . . . , e0n

duas bases ortonormais para V ordenadas de tal forma que

−1 se i = 1, . . . , p,
q (ei ) =
1 se i = p + 1, . . . , n,
se i = 1, . . . , p0 ,

−1
q (e0i ) =
1 se i = p0 + 1, . . . , n.
Afirmamos que
e1 , . . . , ep , e0p0 +1 , . . . , e0n
são LI. De fato, se
α1 e1 + . . . + αp ep + βp0 +1 e0p0 +1 + . . . + βn e0n = 0,
escrevemos
α1 e1 + . . . + αp ep = −βp0 +1 e0p0 +1 − . . . − βn e0n ,
e tomando o produto interno desta equação com ela própria obtemos
−α12 − . . . − αp2 = βp20 +1 + . . . + βn2 ,
já que q (ei ) = −1 para i = 1, . . . , p e q (e0i ) = 1 para i = p0 + 1, . . . , n. Como o lado esquerdo é 6 0 e o lado
direito é > 0 (daı́ a necessidade de se considerar um espaço vetorial real; veja a Observação 6.53), segue que
ambos devem ser 0 e portanto
α1 = . . . = αp = βp0 +1 = . . . = βn = 0,
provando a afirmação. Como dim V = n, temos que
p + (n − p0 ) 6 n,
donde
p 6 p0 .
Por simetria do argumento, segue também que p0 6 p e portanto p = p0 .
6.50 Definição. Seja V é um espaço vetorial métrico real com dimensão n.
O número de vetores ei de qualquer base ortonormal B = {e1 , . . . , en } para V tais que
q (ei ) = −1
é chamado o ı́ndice da métrica.
Se a métrica tem ı́ndice p, denotando q = n − p, dizemos também que a métrica tem assinatura (p, q).

Em outras palavras, se um espaço vetorial métrico V tem assinatura (p, q), e B = {e1 , . . . , en } é uma base
ortonormal qualquer de V , então p é o número de vetores de B tais que q (ei ) = −1 e q é o número de vetores
de B tais que q (ei ) = +1. Em relação a esta base a métrica se escreve na forma
p
X n
X
hv, wi = − v i wi + v i wi
i=1 i=p+1
e sua forma quadrática associada como
p n
X 2 X 2
q (v) = − vi + vi .
i=1 i=p+1
6.51 Notação. Para um espaço vetorial de dimensão n, definimos o eta de Kronecker de assinatura
(p, q) por

 −1 se i = j = 1, . . . , p,
(p,q)
ηij = 1 se i = j = p + 1, . . . , n,
0 se i 6= j,

isto é,
(p,q) −Ip 0
η = .
0 Iq

Note que quando (p, q) = (0, n) (métrica euclidiana)
(0,n)
ηij = δij ,
e quando (p, q) = (1, n) (métrica lorentziana) omitimos o ı́ndice superescrito e escrevemos simplesmente ηij ,
isto é,
(1,n)
ηij = ηij .
O Teorema de Sylvester diz portanto que a matriz simétrica associada a uma métrica com assinatura (p, q)
em relação a qualquer base ortonormal é exatamente a matriz diagonal η (p,q) .
6.52 Exemplo. Em Rn , se e1 , . . . , en são os vetores da base canônica, definimos uma métrica com assinatura
(p, q) por
(p,q) (p,q)
gij = hei , ej i = ηij .
Este é chamado o espaço vetorial métrico canônico com assinatura (p, q), denotado Rp,q ou Rp+q .
6.53 Observação. O Teorema de Sylvester não vale para métricas complexas e o conceito de assinatura
não está definido para estas: se B = {e1 , . . . , en } é uma base ortonormal para V com

−1 se i = 1, . . . , p,
q (ei ) =
1 se i = p + 1, . . . , n,
se q (ej ) = −1 então
q (iej ) = i2 q (ej ) = (−1) (−1) = 1,
de modo que
B0 = {ie1 , . . . , iep , ep+1 , . . . , en }
é uma base ortonormal para V satisfazendo
q (ei ) = 1 para i = 1, . . . , n.

6.54 Exemplo. Se V é um espaço vetorial real e W é um espaço vetorial real métrico positivo definido,
podemos definir uma métrica definida positiva em V a partir de um morfismo linear injetivo T : V −→ W
por
hv, wiV := hT v, T wiW . (6.3)
Dizemos que h·, ·iV é a métrica em V induzida pela métrica em W através do morfismo linear injetivo T .
Claramente, todas as propriedades de uma métrica são satisfeitas por h·, ·iV , consequência da linearidade
de T e do fato de h·, ·iW ser uma métrica; a definição positiva é consequência da injetividade de T .
Se T é apenas injetivo, uma métrica de assinatura (p, q) em W poderá não induzir uma métrica em V , pois
esta poderá ser degenerada (por exemplo, quando o subespaço imagem T (V ) é um subespaço degenerado de
W ). Se T é um isomorfismo, então uma métrica de assinatura (p, q) em W induz uma métrica de assinatura
(p, q) em V .
6.5.3 Teorema de Sylvester para Formas Bilineares Reais Simétricas

6.55 Teorema (Teorema de Sylvester para Formas Bilineares Simétricas). Seja f uma forma
bilinear real simétrica. Então V possui uma base ortogonal B = {e1 , . . . , en } tal que

 −1 se i = 1, . . . , p,
q (ei ) = +1 se i = p + 1, . . . , p + q,
0 se i = p + q + 1, . . . , p + q + r.

Além disso, os valores de p, q, r independem da base.

Prova: A demonstração será por indução sobre n = dim V . Se f = 0 ou n = 1, o teorema é óbvio.
Assuma f 6= 0, n > 1 e o teorema demonstrado para n − 1. Como f 6= 0, usando o mesmo argumento do
Lema 6.46 obtemos u ∈ V tal que
q (u) 6= 0.
Seja W = hui o subespaço gerado por u e
W ⊥ = {v ∈ V : hu, vi = 0}
o subespaço ortogonal a u. Afirmamos que
V = W ⊕ W ⊥.
De fato, os subespaços W e W ⊥ são LI: se v ∈ W ∩ W ⊥ , então
v = αu,
f (u, v) = 0.
para algum escalar α ∈ R; logo,

0 = f (u, αu) = αf (u, u) = αq (u)
e como q (u) 6= 0, segue que α = 0. Além disso, V = W + W ⊥ : dado v ∈ V , definindo
f (u, v)
w=v− u,
q (u)
segue que w ∈ W ⊥ , pois

f (u, v)
f (u, w) = f u, v − u
q (u)
f (u, v)
= f (u, v) − f (u, u)
q (u)
= 0;
portanto
f (u, v)
v= u+w
q (u)
com o primeiro vetor da soma em W e o segundo em W ⊥ . Agora, pela hipótese de indução existe uma base
ortogonal
B0 = {e1 , . . . , en−1 }
para W ⊥ satisfazendo o enunciado do teorema. Tomando en = u, obtemos uma base ortogonal
B = {e1 , . . . , en−1 , en }
para V e reordenando-a ela satisfazerá as demais condições do teorema.

Seja B = {e1 , . . . , en } uma base ortogonal para V satisfazendo as condições do teorema. Em particular,
o posto da matriz de f em relação a esta base é p + q e portanto este é o posto de f . Segue que se
B = {e1 , . . . , ep , ep+1 , . . . , ep+q , ep+q+1 , . . . , ep+q+r } ,

B0 = e01 , . . . , e0p0 , e0p0 +1 , . . . , e0p0 +q0 , e0p0 +q0 +1 , . . . , e0p0 +q0 +r0 ,

são duas bases ortogonais para V ordenadas de tal forma que


 −1 se i = 1, . . . , p,
q (ei ) = +1 se i = p + 1, . . . , p + q,
0 se i = p + q + 1, . . . , p + q + r,

e
se i = 1, . . . , p0 ,

 −1
q (e0i ) = +1 se i = p0 + 1, . . . , p0 + q 0 ,
0 se i = p0 + q 0 + 1, . . . , p0 + q 0 + r0 ,

temos
p + q = p0 + q 0 = rank f,
donde
r = r0 .
Assim, o mesmo argumento da demonstração do Teorema de Sylvester pode ser usado, concluindo que o
conjunto de vetores
e1 , . . . , ep , e0p0 +1 , . . . , e0p0 +q0

é LI e daı́
p + q 0 6 n − r,
pois p + q 0 > n − r = rank f implicaria uma base em relação a qual a matriz de f teria posto maior que
rank f (basta completar esta base a uma base não necessariamente ortogonal de V ; a matriz resultante teria
posto pelo menos igual a p + q 0 ). Portanto, como
q 0 = n − p0 − r0 = n − p0 − r,
segue que
p + (n − p0 − r) 6 n − r,
donde
p 6 p0 .
Por simetria do argumento, p0 6 p, logo p = p0 . De p = p0 e r = r0 , segue que q = q 0 .
6.56 Definição. Nas condições do teorema anterior, dizemos que a forma bilinear simétrica f tem assina-
tura (p, q, r).
O Teorema de Sylvester para formas bilineares simétricas diz que a matriz simétrica associada a uma forma
bilinear simétrica com assinatura (p, q, r) em relação a qualquer base ortogonal é a matriz diagonal
 
−Ip 0 0
η (p,q,r) =  0 Iq 0  .
0 0 0r
O Teorema de Sylvester não vale para formas anti-simétricas: a existência de uma base ortogonal implica a
existência de uma representação matricial diagonal para a forma; como a matriz de uma forma anti-simétrica
é anti-simétrica, a matriz seria identicamente nula.
6.6 Algumas Propriedades Geométricas do Espaço de Minkowski

Nesta seção, denotaremos o espaço de Minkowski Mn+1 por M e
p
kvk = q (v)
se q (v) > 0 e p
kvk = −q (v)
se q (v) 6 0.
6.57 Proposição. Se v ∈ M é do tipo tempo e w 6= 0 é ortogonal a v, então w é um vetor do tipo espaço.
⊥
Em particular, hvi é um subespaço do tipo espaço.
Prova: Como hvi é não degenerado, podemos decompor
⊥
M = hvi ⊕ hvi .
Como os ı́ndices da métrica em M e hvi são iguais a 1, pelo Teorema de Sylvester o ı́ndice da métrica em
⊥
hvi deve ser zero, caso contrário obterı́amos uma base para M com mais de um vetor com valor q igual a
−1. Portanto, todo vetor ortogonal a v não nulo é do tipo espaço.
6.58 Definição. Denote por M− o conjunto dos vetores do tipo tempo. Para v ∈ M− , definimos o cone
temporal de v como sendo o conjunto
C (v) = w ∈ M− : hv, wi < 0 .

Seu cone temporal oposto é o conjunto
C (−v) = −C (v) = w ∈ M− : hv, wi > 0 .

6.59 Proposição. Dois vetores v, w do tipo tempo estão no mesmo cone temporal se e somente se
hv, wi < 0.
Prova: Seja v ∈ C (u), para u ∈ M− que podemos tomar unitário, de modo que hu, ui = −1. Mostraremos
que w ∈ M− pertence também a C (u) se e somente se hv, wi < 0. Escreva
v = au + x,
w = bu + y,
⊥
para x, y ∈ hui . Temos
hv, wi = hau + x, bu + yi = −ab + hx, yi . (6.4)
Como
2
0 > hv, vi = hau + x, au + xi = −a2 + kxk ,
2
0 > hw, wi = hbu + y, bu + yi = −b2 + kyk ,
segue que
|a| > kxk ,

|b| > kyk ,
⊥
e pela desigualdade de Cauchy-Schwartz, válida no subespaço do tipo espaço hui , obtemos
|hx, yi| 6 kxk kyk < |ab| .
Segue de (6.4) que

sign hv, wi = − sign (ab) .
Como v ∈ C (u),
0 > hu, vi = hu, au + xi = −a,
isto é,
a > 0,
donde
sign hv, wi = − sign b,
Mas w ∈ C (u) se e somente se b > 0, pois
hu, wi = hu, bu + yi = −b,
logo segue o resultado.

Existem apenas dois cones temporais, pois pela Proposição 6.57 o produto interno de dois vetores do tipo
tempo não pode ser nulo, logo ou é negativo e eles estão no mesmo cone temporal pela Proposição 6.59, ou
é positivo e eles estão em cones temporais opostos. Portanto, temos a união disjunta
M− = C (v) ∪ C (−v)
para qualquer vetor do tipo tempo v.

Da mesma forma que o conjunto dos vetores do tipo tempo M− , cones temporais não são subespaços
vetoriais de M. Mas cada cone temporal é um conjunto convexo: se a, b > 0 e v, w ∈ C, então av + bw ∈ C.
6.60 Definição. Fixada uma base ortonormal
B = {e0 , e1 , . . . , en }
para o espaço de Minkowski M com q (e0 ) = −1, o cone temporal futuro de M é o conjunto
C+ = C (e0 ) = v ∈ M− : hv, e0 i < 0 ,

enquanto que o cone temporal passado de M é o conjunto
C− = C (−e0 ) = v ∈ M− : hv, e0 i > 0 .

Assim,
M− = C+ ∪ C− .
A escolha de qual cone temporal é designado como o cone temporal futuro e qual cone temporal é designado
como o cone temporal passado depende portanto da escolha da base. Isso determina uma orientação no
espaço de Minkowski.
Existem vetores do tipo espaço que satisfazem a desigualdade de Cauchy-Schwartz, como observado na
demonstração da Proposição 6.59. Isso não é verdade para todos os vetores do tipo espaço. Por exemplo,
v = (−1, 1, 1, 1) ,
w = (1, 1, 1, 1) ,
são vetores do tipo espaço, pois

hv, vi = hw, wi = 2,
mas
hv, wi = 4,
enquanto que √ √
kvk kwk = 2 2 = 2,
portanto
hv, wi > kvk kwk .
Por outro lado, vetores do tipo tempo sempre satisfazem a desigualdade de Cauchy-Schwartz reversa:
6.61 Proposição (Desigualdade de Cauchy-Schwartz Reversa). Se v, w ∈ M são do tipo tempo, então
|hv, wi| > kvk kwk ,
com a igualdade valendo se e somente se v e w são múltiplos escalares um do outro.

Prova: Escreva
w = av + z
⊥
com z ∈ hvi . Então
hw, wi = a2 hv, vi + hz, zi ,
e daı́
2 2
hv, wi = a2 hv, vi = a2 hv, vi hv, vi

= (hw, wi − hz, zi) hv, vi

> hw, wi hv, vi
= kvk kwk ,
pois hz, zi > 0 pela Proposição 6.57 e hw, wi , hv, vi < 0. A igualdade vale se e somente se z = 0.
6.62 Proposição (Desigualdade Triangular Reversa). Se v, w ∈ M são do tipo tempo e estão no mesmo
cone temporal, então
kvk + kwk 6 kv + wk ,
com a igualdade valendo se e somente se v e w são múltiplos escalares um do outro.

Prova: Como v, w estão no mesmo cone temporal e cones temporais são convexos, segue que v + w também
estã no mesmo cone temporal e em particular também é um vetor do tipo tempo, ou seja,
hv + w, v + wi < 0.
Pela desigualdade de Cauchy-Schwartz reversa,
kvk kwk 6 − hv, wi .
Logo,
2 2 2
(kvk + kwk) = kvk + 2 kvk kwk + kwk
2 2
6 kvk − 2 hv, wi + kwk
= − hv, vi − 2 hv, wi − hw, wi
= − hv + w, v + wi
2
= kv + wk
A igualdade valerá se e somente se a igualdade valer na desigualdade de Cauchy-Schwartz reversa.

Assim, a reta que liga dois pontos no espaço de Minkowski não é o caminho mais curto entre dois pontos;
na verdade, é o caminho mais longo (que leva o maior tempo para percorrer)
6.63 Proposição (Interpretação Geométrica do Produto Interno). Se v, w ∈ M são vetores do tipo
tempo pertencentes ao mesmo cone temporal, então existe um único real θ > 0 tal que
hv, wi = − kvk kwk cosh θ.
θ é chamado o ângulo hiperbólico entre v e w.

Prova: Pela desigualdade de Cauchy-Schwartz reversa,
|hv, wi|
> 1,
kvk kwk
logo existe um único número não negativo θ tal que
|hv, wi|
cosh θ = .
kvk kwk
Pela Proposição 6.59, hv, wi < 0, logo

|hv, wi| = − hv, wi ,
donde
hv, wi
cosh θ = − .
kvk kwk

6.7 Coordenadas em Espaços Vetoriais Métricos

Os resultados a seguir mostram que encontrar as coordenadas de um vetor ou de um operador linear em
relação a uma base ortonormal é bastante simples.
6.64 Proposição. Se um vetor v é a combinação linear dos vetores ortogonais não do tipo luz e1 , . . . , em ,
então
m
X hv, ek i
v= ek .
hek , ek i
k=1
Em particular, se a métrica tem assinatura (p, q) e B = {e1 , . . . , en } é uma base ortonormal com e1 , . . . , ep
do tipo tempo e ep+1 , . . . , ep+q do tipo espaço, segue que
n p p+q
(p,q)
X X X
v= ηii hv, ek i ek = − hv, ek i ek + hv, ek i ek .
k=1 k=1 k=p+1
m
v j ej , então
P
Prova: Se v =
j=1
*m + m
X X
j
hv, ek i = v ej , ek = v j hej , ek i .
j=1 j=1

6.65 Corolário. Qualquer conjunto ortogonal de vetores não do tipo luz é LI.
Prova: Se e1 , . . . , em são vetores ortogonais não luz e
m
X
0= v j ej ,
j=1
segue da proposição anterior que

h0, ek i
vj = = 0.
hek , ek i

6.66 Proposição. Seja V um espaço vetorial métrico e B = {e1 , . . . , en } é uma base ortonormal para V e
A = [T ]B é a representação matricial de T , então se a métrica é definida positiva,
Aij = hT ej , ei i .
Se a métrica tem assinatura (p, q), então

(p,q)
Aij = ηii hT ej , ei i .
Prova: Por definição,

n
X
T ej = Akj ek .
k=1
Logo, * +
n
X n
X
hT ej , ei i = Akj ek , ei = Akj hek , ei i = Aij
k=1 k=1
se a métrica é definida positiva, e

hT ej , ei i = Aij hei , ei i
no caso geral.
6.67 Proposição. Sejam V um espaço vetorial métrico com assinatura (p, q) e T ∈ Hom (V ) um operador
linear.
Se B = {e1 , . . . , en } é uma base ortonormal para V e A = [T ]B é a representação matricial de T , então
(p,q)
Aij = ηii hT ej , ei i .
Em particular, se a métrica é definida positiva,
Aij = hT ej , ei i .
Prova: Por definição,

n
X
T ej = Akj ek .
k=1
Logo, * +
n
X n
X
hT ej , ei i = Akj ek , ei = Akj hek , ei i = Aij
k=1 k=1
se a métrica é definida positiva, e

(p,q)
hT ej , ei i = Aij hei , ei i = Aij ηii .
no caso geral.
6.8 Projeções Ortogonais

6.68 Definição. Seja V um espaço vetorial métrico. Dizemos que uma projeção E ∈ Hom (V ) é uma
projeção ortogonal se
ker E ⊥ im E.
Na decomposição em soma direta
V = im E ⊕⊥ ker E
v = w + z,
o vetor w é chamado a projeção ortogonal de v no subespaço W = im E, denotado
projW v.

6.69 Proposição. Sejam V um espaço vetorial métrico, W ⊂ V um subespaço não degenerado de V e
{e1 , . . . , em } uma base ortogonal de vetores não luz para W . Dado v ∈ V , a projeção ortogonal de v em W
é o vetor
m
X hv, ek i
projW v = ek .
hek , ek i
k=1
Prova: Pois
hv, ei i
hv − projW v, ei i = hv, ei i − hei , ei i = 0,
hei , ei i
logo
v = v + (v − projW v)
é uma decomposição em soma direta V = W ⊕⊥ W ⊥ .
6.70 Definição. Sejam V um espaço vetorial métrico definido positivo e W ⊂ V um subespaço de V . Dado
v ∈ V , a melhor aproximação de v em W é o vetor u ∈ W que satisfaz
kv − uk 6 kv − wk
para todos os vetores w ∈ W .

Em outras palavras,
kv − uk = min kv − wk .
w∈W
6.71 Teorema. Sejam V um espaço vetorial métrico definido positivo e W ⊂ V um subespaço de V . Dado
v ∈ V , o vetor que melhor aproxima v em W é a projeção ortogonal de v em W .
Prova: Escreva
v = u + u⊥
onde u = projW v ∈ W e u⊥ ∈ W ⊥ . Dado w ∈ W , temos
v − w = u − w + u⊥ ,
e como u − w é ortogonal ao vetor u⊥ , segue da identidade de Pitágoras que

2 2 2
kv − wk = ku − wk + u⊥ .
Em particular, o valor mı́nimo para kv − wk é atingido quando ku − wk = 0, isto é, quando w = u.
6.9 Processo de Ortogonalização de Gram-Schmidt

Já sabemos que todo espaço vetorial métrico de assinatura arbitrária possui uma base ortonormal, mas não
temos um algoritmo para construir uma tal base. O algoritmo de Gram-Schmidt permite construir uma
base ortogonal B0 = {w1 , . . . , wn } constituı́da de vetores do tipo tempo ou espaço a partir de uma base
B = {v1 , . . . , vn } dada. Para uma obter uma base ortonormal B00 a partir de B0 , basta dividir cada vetor wi
por q (wi ). Além disso a base B00 depende continuamente e mesmo diferencialmente da base B.
6.72 Lema (Processo de Ortogonalização de Gram-Schmidt). Seja V um espaço vetorial métrico
real com assinatura (p, q).
Se B = {v1 , . . . , vn } é uma base para V , então V possui uma base ortogonal B0 = {w1 , . . . , wn } tal que
nenhum wi é do tipo luz e cada wi é uma combinação linear dos vetores v1 , . . . , vn com coeficientes que são
funções racionais dos produtos escalares hvi , vj i.
Prova: Caso em que a métrica é definida positiva.
Primeiro tomamos w1 = v1 . Indutivamente, suponha obtidos vetores ortogonais w1 , . . . , wm tais que
{w1 , . . . , wk }
é uma base para o subespaço gerado pelos vetores v1 , . . . , vk , 1 6 k 6 m. Para construir o vetor wm+1 ,
consideremos a projeção ortogonal do vetor vm+1 sobre o subespaço gerado pelos vetores w1 , . . . , wm :
m
X hvm+1 , wj i
2 wj
j=1 kwj k
e tomamos
m
X hvm+1 , wj i
wm+1 = vm+1 − 2 wj .
j=1 kwj k
Então wm+1 6= 0, caso contrário vm+1 está no subespaço gerado por w1 , . . . , wm e portanto é uma combinação
linear destes vetores. Além disso, para todo 1 6 k 6 m temos
m
X hvm+1 , wj i hvm+1 , wk i
hwm+1 , wk i = hvm+1 , wk i − 2 hwj , wk i = hvm+1 , wk i − 2 hwk , wk i = 0.
j=1 kwj k kwk k
Assim, {w1 , . . . , wm+1 } é um conjunto de m + 1 vetores ortogonais que geram o subespaço hv1 , . . . , vm+1 i de
dimensão m + 1, logo é uma base para este.
Caso geral.
O que impede a aplicação do processo usual de Gram-Schmidt usado em espaços vetoriais com métrica
definida positiva é a possı́vel presença de vetores do tipo luz na base inicial ou o surgimento de tais vetores
durante o processo de ortogonalização, de forma que não é possı́vel dividir pelas normas destes durante o
algoritmo. Este problema pode ser evitado através do argumento descrito a seguir.
Procedemos por indução em n = dim V . Se n = 1, como uma métrica é não degenerada, qualquer vetor
não nulo não pode ser do tipo luz, logo B já é a base requerida. Assuma como hipótese de indução que o
resultado vale para qualquer espaço vetorial métrico com dimensão menor que n.
Suponha em primeiro lugar que existe pelo menor um vetor na base B que não é do tipo luz. Podemos
assumir hv1 , v1 i = 6 0, reordenando a base se necessário. Tomamos w1 = v1 . Como hv1 i é não degenerado,
⊥ ⊥
segue que V = hv1 i ⊕ hv1 i com dim hv1 i = n − 1. Além disso, se
hvi , v1 i
ei = vi −
w v1 ,
hv1 , v1 i
então
B
e = {w en }
e2 , . . . , w
⊥
é uma base para hv1 i . Os vetores w ei podem ser todos do tipo luz, mas da hipótese de indução (observe
⊥
que hv1 i é não degenerado, logo é um espaço métrico de dimensão n − 1) segue que existe uma base
B
e 0 = {w2 , . . . , wn }
tal que os vetores wi não são do tipo luz e eles são combinações lineares dos vetores wei com coeficientes
que são funções racionais dos produtos escalares hw ej i. Como os vetores w
ei , w ei por sua vez são combinações
lineares dos vetores vi com coeficientes que são funções racionais dos produtos escalares hvi , vj i, o mesmo
vale para os vetores wi . Consequentemente,
B0 = {w1 , w2 , . . . , wn }
é a base ortogonal para V requerida.

Suponha agora que todos os vetores na base B são do tipo luz. Note que como uma métrica é não
degenerada, não pode existir uma base ortogonal formada apenas de vetores do tipo luz: se {e1 , . . . , en }
fosse uma base ortogonal com cada ei do tipo luz, ou seja, hei , ej i = 0 para todos i, j, inclusive quando i = j,
então quaisquer vetores
n
X
v= v i ei ,
i=1
n
X
w= w j ej ,
j=1
seriam sempre ortogonais, pois

* n n
+ n
X X X
hv, wi = v i ei , w j ej = v i wj hei , ej i = 0.
i=1 j=1 i,j=1
Portanto, B possui pelo menos dois vetores não ortogonais, que podemos tomar como sendo v1 , v2 , reorde-
nando a base se necessário. Mostraremos que podemos trocar os vetores v1 , v2 do tipo luz da base por um
par de vetores ortogonais ve1 , ve2 que não são do tipo luz, tais que ve1 , ve2 são combinações lineares de v1 , v2
com coeficientes que são funções racionais dos produtos escalares hv1 , v2 i. Uma vez feito isso, caı́mos no caso
anterior, em que pelo menos um vetor da base não é do tipo luz.
De fato, como hv1 , v2 i =
6 0, podemos definir
ve1 = v1 + v2 ,
ve2 = v1 − v2 .
Então ve1 , ve2 são ortogonais, pois
he
v1 , ve2 i = hv1 , v1 i − hv1 , v2 i + hv2 , v1 i + hv2 , v2 i
= 0,
e eles não são do tipo luz, pois
he
v1 , ve1 i = hv1 , v1 i + 2 hv1 , v2 i + hv2 , v2 i
= 2 hv1 , v2 i
6= 0,
he
v2 , ve2 i = hv1 , v1 i − 2 hv1 , v2 i + hv2 , v2 i
= −2 hv1 , v2 i
6= 0.

Capı́tulo 7
Metrolineomorfismos
7.1 Operadores Lineares Métricos e Grupo Ortogonal

7.1 Definição. Sejam V, W espaços vetoriais métricos. Dizemos que um lineomorfismo L ∈ Hom (V, W )
é um metrolineomorfismo ou morfismo linear métrico (ou transformação linear ortogonal) se ele
preserva a métrica, isto é, se
hLv, LwiW = hv, wiV
para todos v, w ∈ V . Quando V = W dizemos também que L é um operador linear métrico (ou operador
ortogonal).
Uma matriz (p, q)-ortogonal é uma matriz quadrada que representa um operador linear métrico em
relação a qualquer base ortonormal de um espaço vetorial métrico de assinatura (p, q).
O conjunto dos operadores lineares métricos não é um subespaço vetorial de Hom (V ), pois a soma de
morfismos lineares métricos em geral não é um morfismo linear métrico, mas é um subgrupo do grupo GL (V )
dos operadores lineares invertı́veis:
7.2 Proposição. O conjunto O (p, q) dos operadores lineares métricos em um espaço vetorial de assinatura
(p, q) é um grupo sob a operação de composição.
Prova. Claramente, o operador identidade está em O (p, q).

Se L, M ∈ O (p, q), então
h(L ◦ M ) v, (L ◦ M ) wi = hL (M v) , L (M w)i
= hM v, M wi
= hv, wi ,
de modo que a composta L ◦ M também está em O (p, q).

Se L ∈ O (p, q), usaremos a não degeneracidade da métrica para mostrar que L é invertı́vel e que L−1 ∈
O (p, q). Se v ∈ ker L, então para todo w ∈ V temos
hv, wi = hLv, Lwi = h0, Lwi = 0,
e a não degeneracidade do produto interno implica que v = 0, e portanto L é invertı́vel. Daı́,
hv, wi = L L−1 v , L L−1 w = L−1 v, L−1 w ,

logo L−1 ∈ O (p, q).
158
7.3 Definição. O (p, q) é chamado o grupo ortogonal de assinatura (p, q); O (0, n) = O (n) é chamado
o grupo ortogonal de ordem n.
Utilizamos o mesmo nome e sı́mbolo para o subgrupo de matrizes ortogonais do grupo de matrizes
GLn (R).
Se P é a matriz do operador linear L em relação à base B = {e1 , . . . , en } do espaço vetorial métrico V ,

então P tem a forma em colunas
P = Le1 . . . Len ,
onde cada coluna é
Pj1


n
Pji ei =  ...  .
X
Lej =
 
i=1 Pjn
No resultado a seguir, denotaremos
η = η (p,q) .
7.4 Proposição. P é uma matriz (p, q)-ortogonal se e somente se
P t ηP = η.
Consequentemente, se P é ortogonal,
det P = ±1
e portanto toda matriz ortogonal é invertı́vel.

Em particular, se η = I é a métrica euclidiana, P é ortogonal se e somente se
P t P = P P t = I.
Prova. Seja V um espaço vetorial métrico de assinatura (p, q). Seja
B = {e1 , . . . , en }
uma base ortonormal para V satisfazendo

−1 se i = 1, . . . , p,
q (ei ) =
+1 se i = p + 1, . . . , p + q,
de modo que a matriz da métrica de V em relação a esta base é exatamente η. Se

n
X
v= v i ei ,
i=1
denote
v η = ηv,
ou seja,
p
X n
X
vη = − v i ei + v i ei ,
i=1 i=p+1
de modo que podemos escrever

hv, wi = v t ηw = v t wη .
Seja P uma matriz ortogonal representando um operador linear métrico L ∈ Hom (V ) em relação a B.
Então
hLei , Lej i = hei , ej i = ηij
e
 t 
(Le1 )
t . − idp 0
P ηP = 
 .. 
Le1 . . . Len
 0 idq
t
(Len )
 t 
(Le1 )
..  η η
=  (Le1 ) . . . (Len )

.
t
(Len )
h i
t η
= (Lei ) (Lej )
= [hLei , Lej i]
= [hei , ej i]
= η.
Reciprocamente, suponha que P t ηP = η. Então, para todos v, w ∈ V temos
v t P t ηP w = v t ηw.

O lado direito desta equação é hv, wi, enquanto que o lado esquerdo é
t
v t P t ηP w = (P v) ηP w

= hP v, P wi ,
donde
hP v, P wi = hv, wi .
Finalmente, como
p
det P t ηP = det η = (−1)

e também
det P t ηP = det P t det η det P

2
= det η (det P )
p 2
= (−1) (det P ) ,
temos
2
(det P ) = 1,
donde
det P = ±1.

Se P, Q são operadores métricos com determinante +1, então
det (P Q) = det P det Q = +1
também, logo o conjunto dos operadores lineares métricos em O (p, q) com determinante +1 formam um
subgrupo; isso não ocorre evidentemente para os operadores lineares métricos com determinante −1, já que
se P, Q são operadores lineares métricos com determinante −1, então
det (P Q) = det P det Q = (−1) (−1) = +1.
7.5 Definição. O subgrupo de O (p, q) dos operadores métricos com determinante +1 é denotado SO (p, q)
e chamado o grupo ortogonal especial de assinatura (p, q); SO (0, n) = SO (n) é chamado o grupo
ortogonal especial de ordem n.
Utilizamos o mesmo nome e sı́mbolo para o subgrupo das matrizes ortogonais com determinante +1 do
grupo de matrizes GLn (R).
7.2 Rotações e Reflexões

7.6 Definição. Um elemento R ∈ SO (p, q) é chamado uma rotação e um elemento H ∈ O (p, q) \ SO (p, q)
é chamado uma reflexão.
Ou seja, uma rotação é um operador linear métrico ou matriz ortogonal com determinante +1 e uma reflexão
é um operador linear métrico ou matriz ortogonal com determinante −1.
7.7 Definição. Seja V um espaço vetorial métrico. Para cada v ∈ V , o operador H ∈ O (p, q) tal que

−v se w = v,
Hv (w) = ⊥
w se w ∈ hvi ,
⊥
é chamado a reflexão pelo hiperplano hvi .
⊥
Em relação à base B = {v, e2 , . . . , en }, onde {e2 , . . . , en } é uma base para hvi (não necessariamente orto-
normais), temos que a matriz de Hv é a matriz ortogonal

−1 0
[Hv ]B =
0 idn−1
com determinante −1. Note que reflexões por hiperplanos H satisfazem
H 2 = id
isto é,
H −1 = H.
7.8 Exemplo. Nem toda reflexão em O (p, q) \ SO (p, q) é uma reflexão em relação a um hiperplano, isto é,
deixa todo vetor de algum hiperplano fixo. Por exemplo, em R3 o operador H = − id é uma reflexão (em
relação à origem) que não fixa nenhum vetor não nulo.
7.9 Exemplo. Em R2 , a reflexão em relação à reta passando pela origem que faz ângulo θ com o eixo x
positivo é definida por
cos 2θ sen 2θ
Hθ = .
sen 2θ − cos 2θ
De fato, se w = (cos θ, sen θ) é o vetor direção da reta, então Hθ (w) = w, e se v = (− sen θ, cos θ) é um vetor
ortogonal à reta, então Hθ (v) = −v. Em relação à base B = {v, w} a matriz de Hθ é

−1 0
[Hθ ]B = .
0 1

7.10 Proposição. Vale
hw, vi
Hv (w) = w − 2 v.
hv, vi
Prova: Temos
hv, vi
Hv (v) = v − 2 v = v − 2v = −v,
hv, vi
e, se w ⊥ v, de modo que hw, vi = 0,
Hv (w) = w.

7.11 Lema. Seja V um espaço vetorial métrico. Se v, w ∈ V são tais que q (v) = q (w), então
v + w ⊥ v − w.
Prova: Temos
hv + w, v − wi = q (v) − hv, wi + hw, vi − q (w)

= 0.

7.12 Lema. Sejam V um espaço vetorial métrico definido positivo e v, w ∈ V tais que kvk = kwk. Então
Hv−w é a única reflexão por hiperplano que leva v em w e w em v.
Prova: Pelo lema anterior, v + w ⊥ v − w, logo
Hv−w (v − w) = w − v,
Hv−w (v + w) = v + w.
Segue que
1
Hv (v) = [Hv−w (v − w) + Hv−w (v + w)]
2
1
= (w − v + v + w)
2
=w
e
1
Hv (w) = [Hv−w (v + w) − Hv−w (v − w)]
2
1
= [v + w − (w − v)]
2
= v.
Para provar a unicidade, suponha que Hu satisfaz Hu (v) = w e Hu (w) = v. Então
Hu (v − w) = Hu (v) − Hu (w)
= w − v,
⊥
de modo que Hu é a reflexão em relação ao hiperplano hv − wi , ou seja Hu = Hv−w .
Note que se v = w, então Hv−w = H0 = id.
7.13 Lema. Sejam V um espaço vetorial métrico e v, w ∈ V vetores não do tipo luz tais que q (v) = q (w).
Então Hv+w leva v em −w e w em −v ou Hv−w leva v em −w e w em −v.
Prova: A soma de vetores ortogonais u1 , u2 do tipo luz sempre é do tipo luz, pois
q (u1 + u2 ) = q (u1 ) + 2 hu1 , u2 i + q (u2 ) = 0.
Pelo Lema 7.11 v + w ⊥ v − w. Como
(v + w) + (v − w) = 2v
e v não é do tipo luz, segue que v + w ou v − w não é do tipo luz (ou ambos). Se v + w não é do tipo luz,
então
Hv+w (v + w) = − (v + w) ,
Hv+w (v − w) = v − w,
donde
Hv+w (v) = −w,

Hv+w (w) = −v.
Se v − w não é do tipo luz, então
Hv−w (v + w) = v + w,
Hv−w (v − w) = − (v − w) ,
donde
Hv−w (v) = w,
Hv−w (w) = v.

7.14 Proposição. Seja V um espaço vetorial métrico de caracterı́stica diferente de 2.
Todo morfismo linear métrico é um produto de reflexões por hiperplanos.
Prova: Seja L ∈ O (p, q).
Caso Definido Positivo. Seja B = {e1 , . . . , en } uma base ortonormal para V . Usando o Lema 7.12,
temos
HL(e1 )−e1 (L (e1 )) = e1 .
Tome
H1 = HL(e1 )−e1 ,
de modo que
(H1 ◦ L) (e1 ) = e1 .
Suponha que encontramos reflexões por hiperplanos
H1 , . . . , Hk−1
tais que
(Hk−1 · · · H1 L) (ei ) = ei
para i = 1, . . . , k − 1. Denotando
Lk−1 = Hk−1 · · · H1 L
e tomando
Hk = HLk−1 (ek )−ek ,
temos
Hk (Lk−1 (ek )) = ek .
Além disso, (Lk−1 (ek ) − ek ) ⊥ ei para i = 1, . . . , k − 1, pois ek ⊥ ei e as inversas dos operadores métricos
reflexões são elas próprias, de modo que
hLk−1 (ek ) − ek , ei i = hLk−1 (ek ) , ei i − hek , ei i

= hHk−1 · · · H1 L (ek ) , ei i
= hL (ek ) , H1 · · · Hk−1 (ei )i
= hL (ek ) , L (ei )i
= hek , ei i
= 0.
⊥
Portanto, e1 , . . . , ek estão no hiperplano hLk−1 (ek ) − ek i , logo
Hk (Lk−1 (ei )) = Hk [(Hk−1 · · · H1 L) (ei )]

= Hk (ei )
= ei .
Continuando desta forma, encontramos reflexões por hiperplanos
H1 , . . . , Hn
tais que
(Hn · · · H1 L) (ei ) = ei
para i = 1, . . . , n, ou seja,
Hn · · · H1 L = id,
donde, como a inversa de uma reflexão é ela própria,
L = H1 · · · Hn .
Caso Geral. Por indução em n = dim V .

Se n = 1, pela não degeneracidade da métrica temos V = hui com q (u) 6= 0. Para qualquer α ∈ K
L (αu) = αu.
Como L é um morfismo métrico, segue que
q (u) = q (Lu) = q (αu) = α2 q (u) ,
donde α = ±1. Se α = 1, então

L = id = Hv2 = Hv Hv ,
e se α = −1, então
L = Hv .
Assuma o resultado válido para espaços métricos V com dim V < n. Seja u um vetor que não é do tipo
luz. Então
q (Lu) = q (u) 6= 0.
Pelo Lema 7.13, existe uma reflexão por hiperplano H tal que
H (Lu) = ±u.
⊥
Em particular, HL = ± id em hui. Como HL é métrico, o subespaço hui é invariante por HL. Por hipótese
de indução, temos
(HL) |hui⊥ = Hv1 · · · Hvk
⊥ ⊥
para reflexões Hvi definida em hui com v1 , . . . , vk ∈ hui . Estendemos Hvi a uma reflexão por hiperplano
em V definindo
Hvi (u) = u,
que denotaremos por Hi . Segue que se HL = + id, então
L = HHv1 · · · Hvk .
⊥
Se HL = − id, como Hu é a identidade em hui , então podemos escrever
L = HHu Hv1 · · · Hvk .

Note que reflexões não podem ser escritas como produtos de rotações, porque o determinante de um produto
de rotações sempre é +1.
7.3 Isometrias
7.15 Definição. Seja V um espaço vetorial métrico. Uma aplicação F : V −→ V tal que
q (F (v) − F (w)) = q (v − w)
para todos v, w ∈ V é chamada uma isometria de V .

Todo operador linear métrico é uma isometria, pois
q (L (v) − L (w)) = q (L (v − w))

= hL (v − w) , L (v − w)i
= hv − w, v − wi
= q (v − w) .
7.16 Proposição. Se F é uma isometria tal que F (0) = 0, então F é um operador linear métrico.
Prova: Passo 1. q (F (v)) = q (v) para todo v ∈ V .
Pois
q (F (v)) = q (F (v) − F (0)) = q (v − 0) = q (v) .
Passo 2. F preserva a métrica.
Pela identidade polar, para todos v, w ∈ V vale
1
hF (v) , F (w)i = [q (F (v) − F (w)) − q (F (v)) − q (F (w))]
2
1
= (q (v − w) − q (v) − q (w))
2
= hv, wi .
Passo 3. F é linear.
Seja
B = {e1 , . . . , en }
uma base ortonormal para V . Suponha primeiramente que

F (ei ) = ei (7.1)
para todo i. Para todo v ∈ V temos
hv, ei i = hF (v) , F (ei )i = hF (v) , ei i .
Pela bilinearidade da métrica segue que
hv, wi = hF (v) , wi
para todo w ∈ V , de modo que pela não degeneracidade da métrica temos
F (v) = v,
isto é,
F = id,
que é um operador linear métrico.
Se (7.1) não se cumpre, pelo Passo 2 F leva bases ortonormais em bases ortonormais, de modo que se
F (ei ) = fi ,
então
B0 = {f1 , . . . , fn }
é uma base ortonormal. Se L é o operador linear métrico que leva B0 em B, segue que G = L ◦ F é uma
isometria (composta de isometrias; veja a demonstração deste fato na prova da Proposição 7.17 a seguir)
que satisfaz
G (ei ) = ei ,
logo pelo argumento anterior segue que
G = id,
e portanto
F = L−1
é um operador linear métrico.
7.17 Proposição. O conjunto Isom (V ) das isometrias de um espaço vetorial com produto interno V é um
grupo sob a operação de composição.
Prova. Claramente, o operador identidade é uma isometria.
Se F, G ∈ Isom (V ), então
q [(F ◦ G) (v) − (F ◦ G) (w)] = q [F (G (v)) − F (G (w))]
= q (G (v) − Gw)
= q (v − w) ,
logo o produto F ◦ G ∈ Isom (V ).
Se F ∈ Isom (V ), para mostrar que F é invertı́vel, seja T uma translação que leva F (0) em 0. Então
T ◦ F é uma isometria tal que (T ◦ F ) (0) = 0, que pela proposição anterior é um operador linear métrico, em
particular bijetivo; logo F = T −1 ◦ (T ◦ F ) é uma composição de bijeções, portanto uma bijeção e invertı́vel.
Como
q (v − w) = q F F −1 (v) − F F −1 (w)

= q F −1 (v) − F −1 (w) ,

segue que F −1 ∈ Isom (V ).

Isom (V ) é chamado o grupo das isometrias de V . O grupo ortogonal O (p, q) é um subgrupo do grupo
de isometrias.
7.18 Proposição. Seja V um espaço vetorial métrico. Se F ∈ Isom (V ), então existe um único operador
linear métrico L e uma única translação T tais que
F = T ◦ L.
Prova: (Existência) Seja T : V −→ V a translação
T (p) = p + F (0) .
Então T −1 ◦ F : V −→ V é uma isometria tal que
T −1 ◦ F (0) = T −1 (F (0)) = F (0) − F (0) = 0,

de modo que pelo resultado anterior

L := T −1 ◦ F
é um operador linear métrico.
(Unicidade) Se L1 , L2 são operadores ortogonais e T1 , T2 são translações tais que
F = T1 ◦ L1 = T2 ◦ L2 ,
então
L1 ◦ L−1 −1
2 = T1 ◦ T2 .
Em particular, T1−1 ◦ T2 é um operador linear e como operadores lineares deixam o vetor nulo fixo, segue
que T1−1 ◦ T2 é a translação nula, isto é, a identidade. Logo,
T1−1 ◦ T2 = id =⇒ T1 = T2 ,
L1 ◦ L−1
2 = id =⇒ L1 = L2 .

7.19 Exemplo. O grupo das isometrias do espaçotempo de Minkowski Isom Mn+1 é chamado o grupo
de Poincaré, um operador linear métrico do espaçotempo de Minkowski é chamado uma transformação
de Lorentz e o grupo das transformações de Lorentz O (1, n) é chamado o grupo de Lorentz.
7.4 Operadores Adjuntos

7.4.1 Teorema da Representação de Riesz
O espaço dual V ∗ é isomorfo ao espaço V porque eles tem a mesma dimensão; este isomorfismo não é natural,
pois depende de fixar uma base. Em um espaço vetorial métrico de dimensão finita, todo funcional linear é
derivado da métrica como veremos a seguir. Assim a estrutura métrica adicional permite uma identificação
canônica, independente de bases entre V e V ∗ .
7.20 Teorema (Teorema da Representação de Riesz). Seja V um espaço vetorial métrico de dimensão
finita e f ∈ V ∗ um funcional linear. Então existe um único vetor v ∈ V tal que
f (w) = hv, wi para todo w ∈ V.
Esta correspondência determina um isomorfismo natural (isto é, independente de bases) entre V e V ∗ .
Em particular,
⊥
ker f = hvi .
(p,q)
Prova: Seja {e1 , . . . , en } uma base ortonormal para V . Se w ∈ V , denotando ηkk = ηkk , temos
n
X
w= ηii hei , wi ei .
i=1
Logo,
n
X
f (w) = ηii hei , wi f (ei )
i=1
Xn
= ηii hf (ei ) ei , wi
i=1
* n +
X
= ηii f (ei ) ei , w .
i=1
Tome
n
X
v= ηii f (ei ) ei .
i=1
Se a métrica é definida positiva,

n
X
v= f (ei ) ei .
i=1
Se v 0 ∈ V é outro vetor tal que f (w) = hw, v 0 i para todo w ∈ V , então hw, vi = hw, v 0 i para todo w ∈ V ,
donde hw, v − v 0 i = 0. A não degeneracidade da métrica implica v − v 0 = 0, donde v = v 0 .
O Teorema de Riesz pode ser generalizado para formas bilineares não degeneradas. Se f é uma forma bilinear
degenerada, o teorema deixa de ser válido: por exemplo, no caso extremo f = 0, nenhum funcional linear
não nulo pode ser representado através de f .
7.4.2 Morfismo Adjunto

A principal consequência do Teorema de Representação de Riesz é permitir a identificação de um espaço
vetorial métrico V com o seu dual V ∗ atrávés da métrica. Da mesma forma, ele permite a identificação do
anulador U 0 de um subespaço U de V com o subespaço ortogonal U ⊥ e do morfismo dual T ∗ : W ∗ −→ V ∗
de um morfismo linear T : V −→ W com um morfismo linear T ∗ : W −→ V , chamado o adjunto de T ,
como veremos a seguir. Usaremos a mesma notação para denotar os dois morfismos, apesar de estarem
definidos em espaços diferentes, por causa da identificação natural permitida pelo Teorema de Riesz: em
espaços vetoriais métricos não há a menor necessidade em considerar o morfismo dual e tudo é expresso pelo
morfismo adjunto.
7.21 Definição. Sejam V, W espaços vetoriais métricos e T : V −→ W uma aplicação. Dizemos que uma
aplicação T ∗ : W −→ V é a adjunta de T se
hT v, wi = hv, T ∗ wi
para todos v ∈ V, w ∈ W .
Observe que também temos
hv, T wi = hT ∗ v, wi ,
pois
hv, T wi = hT w, vi = hw, T ∗ vi = hT ∗ v, wi .
Isso implica que a a adjunta de T ∗ é a própria T :
hT ∗ v, wi = hv, T wi ,
isto é,
∗
(T ∗ ) = T.
7.22 Proposição. Sejam V, W espaços vetoriais métricos e T ∈ Hom (V, W ). Se a adjunta de T existir,
ela é única e é também um morfismo linear.
Prova: Sejam w1 , w2 ∈ W e α, β ∈ R. Então, para todo v ∈ V temos
hv, T ∗ (αw1 + βw2 )i = hT v, αw1 + βw2 i

= α hT v, w1 i + β hT v, w2 i
= α hv, T ∗ w1 i + β hv, T ∗ w2 i
= hv, αT ∗ w1 + βT ∗ w2 i ,
o que implica, pela não degeneracidade da métrica, que
T ∗ (αw1 + βw2 ) = αT ∗ w1 + βT ∗ w2 .
O mesmo argumento também estabelece a unicidade de T ∗ .

Observe que na demonstração desta proposição não usamos o fato de T ser linear para provar que a adjunta
T ∗ é linear. Segue que, quando existe, a adjunta de qualquer aplicação é necessariamente linear. Por outro
lado, como a adjunta da adjunta de T é a própria aplicação T , concluı́mos que T (adjunta de uma aplicação)
deve ser linear. Em outras palavras, para que a adjunta de uma aplicação T exista, T já deve ser uma
aplicação linear. Assim, não há realmente nenhum ganho em generalidade em definir a adjunta de uma
aplicação arbitrária ao invés de definir apenas a adjunta de aplicações lineares, pois as únicas aplicações que
possuem adjuntas são as aplicações lineares.
7.23 Proposição. Sejam V, W espaços vetoriais métricos de dimensão finita. Todo morfismo linear T ∈
Hom (V, W ) possui um único adjunto.
Prova: Para cada w ∈ W fixado, o funcional
f (v) = hT v, wi
é um funcional linear. Pelo Teorema de Representação de Riesz existe um único vetor u ∈ V tal que
hT v, wi = hv, ui para todo v ∈ V.
Definimos uma aplicação T ∗ : W −→ V adjunto de T por
T ∗ w = u.
Pelo proposição anterior, T ∗ é única e linear.

7.24 Proposição. Sejam V um espaço vetorial métrico de dimensão finita e T ∈ Hom (V ). Se B =
{e1 , . . . , en } é uma base ortonormal para V e
A = [T ]B ,
então
[T ∗ ]B = ηAt η.
Em particular, se a métrica é definida positiva,
[T ∗ ]B = At ,
ou seja, em relação a uma base ortonormal, a matriz do operador adjunto T ∗ é a transposta da matriz do
operador T .
Prova: Seja B = [T ∗ ]B . Pela Proposição 6.67,
Aij = ηii hT ej , ei i ,
Bji = ηii hT ∗ ej , ei i ,
donde
Bji = ηii hT ∗ ej , ei i
= ηii hei , T ∗ ej i
= ηii hT ei , ej i
= ηii Aji ηjj
i
= ηAt η j .

7.25 Definição. Seja V um espaço vetorial métrico. Dizemos que T ∈ Hom (V ) é um operador autoadjunto
se
T = T ∗.

Assim, se T é um operador autoadjunto, vale
hT v, wi = hv, T wi
7.26 Corolário. Sejam V um espaço vetorial métrico de dimensão finita e T ∈ Hom (V ). Se B é uma base
ortonormal para V então T é um operador linear autoadjunto se e somente se A = [T ]B satisfaz
A = ηAt η.
Se a métrica é definida positiva, então T é autoadjunto se e somente se
A = At ,
isto é, se e somente se A é uma matriz simétrica.

7.27 Exemplo. No plano de Minkowski M2 , se em relação à base canônica
1
A1 A12

[T ]B = ,
A21 A22
então
A11 A12 A11 −A12

−1 0 −1 0
[T ∗ ]B = = .
0 1 A21 A22 0 1 −A21 A22
Consequentemente, T é autoadjunto se e somente se [T ]B é uma matriz diagonal.
7.28 Proposição. T é um morfismo métrico se e somente se
T T ∗ = T ∗ T = id .
Prova: Se T é um morfismo métrico, para todos v, w ∈ V temos
hv, wi = hT v, T wi = hv, T ∗ T wi
logo T ∗ T w = w para todo w ∈ V , isto é, T ∗ T = id. Reciprocamente, se T ∗ T = id, então
hv, wi = hv, T ∗ T wi = hT v, T wi .
7.29 Proposição. Sejam V um espaço vetorial métrico e T, U ∈ Hom (V ). Então

(i)
∗
(αT + βU ) = αT ∗ + βU ∗ .
(ii)
∗
(T U ) = U ∗ T ∗ .
(iii) Consequentemente, se T é invertı́vel,
∗ −1
T −1 = (T ∗ ) .
7.4.3 Alternativa de Fredholm

7.30 Teorema. Sejam V, W espaços vetoriais métricos de dimensão finita e T ∈ Hom (V, W ). Então
(i)
⊥
ker T ∗ = (im T ) .
⊥
im T ∗ = (ker T ) .
(ii)
⊥
ker T = (im T ∗ ) .
⊥
im T = (ker T ∗ ) .
(iii)
dim (ker T ) = dim (ker T ∗ ) + (dim V − dim W ) .
dim (im T ) = dim (im T ∗ ) .
Em particular,
V = ker T ∗ ⊕⊥ im T.
Prova: (i) Temos

w ∈ ker T ∗
⇔ T ∗w = 0
⇔ hv, T ∗ wi = 0 para todo v ∈ V
⇔ hT v, wi = 0 para todo v ∈ V
⇔ w é ortogonal a im T
⊥
⇔ w ∈ (im T ) ,
o que prova a primeira equação.
Para provar a segunda, seja w ∈ im T ∗ , digamos w = T ∗ u para algum u ∈ V . Se v ∈ ker T , então
0 = h0, ui = hT v, ui = hv, T ∗ ui = hv, wi ,
⊥ ⊥ ⊥
de modo que w ∈ (ker T ) , isto é, im T ∗ ⊂ (ker T ) . Para provar que im T ∗ = (ker T ) basta então provar
que eles possuem a mesma dimensão. Pelo segunda equação do item (iii), cuja demonstração segue da
primeira equação deste item, temos
dim (im T ∗ ) = dim (im T )
= dim V − dim (ker T )
⊥
= dim (ker T ) ,
a última igualdade seguindo da Proposição 6.42.
(ii) Segue de (i), substituindo T por T ∗ .
⊥
(iii) ker T ∗ = (im T ) implica pela Proposição 6.43 ker T ∗ = im T , logo
⊥
dim (im T ) = dim (ker T ∗ )
= dim W − dim (ker T ∗ )
= dim (im T ∗ ) .
⊥ ⊥
Da mesma forma, im T ∗ = (ker T ) implica (im T ∗ ) = ker T , donde
⊥
dim (ker T ) = dim (im T ∗ )
= dim V − dim (im T ∗ )
= dim V − (dim W − dim (ker T ∗ ))
= dim (ker T ∗ ) + (dim V − dim W ) .

⊥
Pelo teorema, im T = (ker T ∗ ) . Segue que a equação
Tv = w
tem solução se e somente se
⊥
w ∈ (ker T ∗ ) .
7.31 Teorema (Alternativa de Fredholm). Sejam V um espaço vetorial métrico de dimensão finita e
T ∈ Hom (V ). Então vale apenas uma e somente uma das alternativas a seguir:
ou
T v = w tem solução,
ou
T ∗ z = 0 tem solução z tal que hw, zi =
6 0.
7.5 Diagonalização de Operadores Autoadjuntos

7.32 Proposição. Seja V um espaço vetorial métrico. Se T é um operador autoadjunto então os autovetores
de T associados a autovalores distintos são ortogonais.
Prova: Sejam λ1 , λ2 autovalores reais distintos de T e v1 , v2 autovetores não-nulos associado a λ1 , λ2 ,
respectivamente. Então
λ1 hv1 , v2 i = hλ1 v1 , v2 i
= hT v1 , v2 i
= hv1 , T v2 i
= hv1 , λ2 v2 i
= λ2 hv1 , v2 i ,
e como λ1 6= λ2 , concluı́mos que

hv1 , v2 i = 0.

7.33 Proposição. Seja V um espaço vetorial métrico definido positivo de dimensão finita. Se T ∈ Hom (V )
é um operador autoadjunto, então T possui um autovalor real.
Além disso, todos os autovalores de T são reais.
Prova 1 (mais natural): Escolhendo uma base ortonormal B para V , a matriz A = [T ]B é simétrica.
Como veremos no próximo capı́tulo, matrizes simétricas são em particular matrizes hermitianas, e todos os
autovalores complexos de uma matriz hermitiana são reais (Proposição 8.35).
Prova 2 (não usando o conceito de matrizes hermitianas): Afirmamos que se b, c ∈ R são tais que
b2 < 4c, então
T 2 + bT + cI
é invertı́vel. De fato, se v 6= 0, usando a desigualdade de Cauchy-Schwarz e completando o quadrado,
obtemos

2
T + bT + cI v, v = T 2 v, v + hbT v, vi + hcv, vi

= hT v, T vi + b hT v, vi + c hv, vi
2 2
= kT vk + b hT v, vi + c kvk
2 2
> kT vk − |b| kT vk kvk + c kvk
2
b2

|b| 2
= kT vk − kvk + c − kvk
2 4
> 0,
o que implica
T 2 + bT + cI v 6= 0

e portanto o seu núcleo é trivial.

Seja n = dim V e v 6= 0. Como os n + 1 vetores v, T v, . . . , T n v são LD, existem escalares não todos nulos
a0 , a1 , . . . , an ∈ R tais que
a0 v + a1 T v + . . . + an T n v = 0.
O polinômio p = a0 + a1 x + . . . + an xn é um polinômio anulador de v e em R se fatora da seguinte forma:
p = a (x − λ1 ) · · · (x − λk ) x2 + b1 x + c1 · · · x2 + bl x + cl ,

com a 6= 0 e os fatores quadráticos irredutı́veis (se existirem) satisfazendo necessariamente b2i < 4ci , já que
não possuem raı́zes reais. Como
0 = p (T ) v = an (T − λ1 I) · · · (T − λk I) T 2 + b1 T + c1 · · · T 2 + bl T + cl v

= an T 2 + b1 T + c1 · · · T 2 + bl T + cl (T − λ1 I) · · · (T − λk I) v

e cada operador T 2 + bi T + ci é invertı́vel como vimos no inı́cio da demonstração, segue que
(T − λ1 I) · · · (T − λk I) v = 0
e portanto pelo menos um dos operadores T − λj I não pode ser invertı́vel para algum ı́ndice j, e neste caso
λj é um autovalor real de T .
Em particular, o polinômio anulador de qualquer vetor não nulo v ∈ V não possui fatores quadráticos e
portanto T não possui autovalores complexos.
7.34 Proposição. Sejam V um espaço vetorial métrico e T ∈ Hom (V ). Se W ⊂ V é um subespaço
invariante por T , então W ⊥ é invariante por T ∗ .
Prova: Se w ∈ W ⊥ , então hv, wi = 0 para todo v ∈ W , logo
hv, T ∗ wi = hT v, wi = 0
para todo v ∈ W , pois T v ∈ W . Portanto, T ∗ w ∈ W ⊥ .

7.35 Teorema. Seja V um espaço vetorial métrico definido positivo. Se T ∈ Hom (V ) é autoadjunto, então
T é diagonalizável através de uma base ortonormal.
Prova: A demonstração será por indução em n = dim V . Pela Proposição 7.33, T possui um autovalor
real. Se n = 1, isso dá uma base ortonormal para V constituı́da de autovetores de T . Assuma o teorema
verdadeiro para espaços com dimensão menor que n. Seja v1 um autovetor de norma 1 associado a um
autovalor real de T e W = hv1 i. Então W é invariante por T e pela proposição anterior W ⊥ é invariante
por T ∗ = T . Mas dim W ⊥ = n − 1, logo pela hipótese de indução existe uma base ortonormal {v2 , . . . , vn }
para W ⊥ de autovetores de T |W ⊥ e portanto de T . Como V = W ⊕ W ⊥ , segue que {v1 , v2 , . . . , vn } é uma
base ortonormal para V de autovetores de T .
7.36 Corolário. Seja A uma matriz simétrica. Então existe uma matriz ortogonal P tal que
D = P t AP
é uma matriz diagonal.

7.37 Corolário. Sejam V um espaço vetorial métrico definido positivo de dimensão finita. Um operador
T ∈ Hom (V ) é diagonalizável através de uma base ortonormal se e somente se ele é autoadjunto.
Prova: Se T é um diagonalizável através de uma base ortonormal, então existe uma matriz ortogonal P tal
que
D = P t AP.
Em particular,
A = P DP t
e t t
At = P DP t = Pt Dt P t = P DP t = A.

7.6 Operadores Normais

7.38 Definição. Dizemos que um operador linear T é um operador normal se
T T ∗ = T ∗ T.
Analogamente, dizemos que uma matriz A é normal se
AAt = At A.

Exemplos de operadores normais são operadores autoadjuntos e operadores métricos, pois estes satisfazem
T T ∗ = T ∗ T = I. O motivo para o nome operador normal é dado pelo Teorema 7.41 a seguir.
7.39 Proposição. Sejam V um espaço vetorial métrico e T ∈ Hom (V ). Então
hT v, vi = 0
para todo v ∈ V se e somente se

T ∗ = −T.
Prova: Se hT v, vi = 0 para todo v ∈ V , então
0 = hT (v + w) , v + wi
= hT v, vi + hT v, wi + hT w, vi + hT w, wi
= hT v, wi + hT w, vi
= hT v, wi + hv, T wi
= hT v, wi + hT ∗ v, wi
= h(T + T ∗ ) v, wi
para todos v, w ∈ V . Portanto, T = −T ∗ . Reciprocamente, se T ∗ = −T , então
hT v, vi = hv, T ∗ vi = hv, −T vi = − hT v, vi ,
logo hT v, vi = 0.
7.40 Definição. Um operador T que satisfaz
T ∗ = −T
é chamado um operador antiautoadjunto.

Uma matriz A que satisfaz
At = −A
é chamada uma matriz antissimétrica.

Assim, uma matriz antissimétrica é da forma
 
0 B
A=
 .. .

.
−B t 0
Operadores anti-autoadjuntos são também operadores normais.
7.41 Teorema. Sejam V um espaço vetorial métrico e T ∈ Hom (V ). Então T é normal se e somente se
kT vk = kT ∗ vk
para todo v ∈ V.
Em particular, se T é normal, segue que
V = ker T ⊕⊥ im T.
Prova: Seja T normal. Então

2
kT vk = hT v, T vi
= hv, T ∗ T vi
= hv, T T ∗ vi
= hT ∗ v, T ∗ vi
2
= kT ∗ vk .
Reciprocamente, se kT vk = kT ∗ vk para todo v ∈ V , então
hT ∗ T v, vi = hT v, T vi
2
= kT vk
2
= kT ∗ vk
= hT ∗ v, T ∗ vi
= hT T ∗ v, vi
para todo v ∈ V , o que implica

h(T ∗ T − T T ∗ ) v, vi = 0.
Segue da Proposição 7.38 que T ∗ T − T T ∗ é um operador anti-autoadjunto; como T ∗ T − T T ∗ também é um
operador autoadjunto, pois
∗ ∗ ∗
(T ∗ T − T T ∗ ) = (T ∗ T ) − (T T ∗ )
∗ ∗ ∗ ∗
= T ∗ (T ) − (T ) T ∗
= T ∗T − T T ∗,
concluı́mos que T ∗ T − T T ∗ = 0.
Se T é um operador normal, segue que ker T = ker T ∗ . Como
V = ker T ∗ ⊕⊥ im T,
obtemos

Se V = ker T ⊕⊥ im T , não é necessariamente verdade que T é um operador normal, pois T pode ser definido
de qualquer forma arbitrária em im T .
Note que operadores normais reais nem sempre são diagonalizáveis, pois podem não possuir sequer
autovalores, como a maioria das rotações em R2 .
7.42 Teorema. Sejam V um espaço vetorial métrico e T ∈ Hom (V ) um operador normal.
Então v é um autovetor para T associado ao autovalor λ se e somente se v é um autovetor para T ∗
associado ao mesmo autovalor λ.
Consequentemente, autovetores de T associados a autovalores distintos são ortogonais.
Prova: Se λ é qualquer escalar, então T − λI também é um operador normal, pois

∗
(T − λI) = T ∗ − λI
e portanto
∗ ∗
(T − λI) (T − λI) = (T − λI) (T − λI) .
Segue do Teorema 7.41 que
k(T − λI) vk = k(T ∗ − λI) vk ,
logo (T − λI) v = 0 se e somente se (T ∗ − λI) v = 0.
Sejam v1 e v2 autovetores associados aos autovalores λ1 6= λ2 , respectivamente. Então,
λ1 hv1 , v2 i = hλ1 v1 , v2 i
= hT v1 , v2 i
= hv1 , T ∗ v2 i
= hv1 , λ2 v2 i
= λ2 hv1 , v2 i

hv1 , v2 i = 0.

7.43 Exemplo. Da demonstração do teorema segue que

cos θ − λ sen θ
A=
− sen θ cos θ − λ
é uma matriz normal. Para λ geral, A não representa um operador autoadjunto ou antiautoadjunto e não é
ortogonal.
7.7 Teoria Espectral para Operadores Autoadjuntos

7.44 Teorema (Teorema Espectral). Sejam V um espaço vetorial métrico definido positivo de dimensão
finita e T ∈ Hom (V ) um operador normal. Sejam λ1 , . . . , λk os autovalores distintos de T , Wi o autoespaço
associado a λi e Ei a projeção ortogonal de V sobre Wi . Então Wi é ortogonal a Wj se i 6= j,
V = W1 ⊕⊥ . . . ⊕⊥ Wk
e
T = λ1 E1 + . . . + λk Ek .
Prova: A decomposição em soma direta ortogonal segue do Teorema 7.35. Desta decomposição em soma
direta segue que
E1 + . . . + Ek = I,
donde
T = T I = T E1 + . . . + T Ek
= λ1 E1 + . . . + λk Ek .

Esta decomposição é chamada a resolução espectral do operador T .
7.45 Definição. Sejam V um espaço vetorial métrico e T ∈ Hom (V ) um operador autoadjunto.

Dizemos que T é positivo definido se
hT v, vi > 0 (7.2)
para todo v ∈ V . Se
hT v, vi > 0 (7.3)
para todo v ∈ V , dizemos que T é positivo semidefinido.
Dado um operador linear invertı́vel T , o operador T ∗ T é sempre autoadjunto e positivo definido, pois
∗ ∗
(T ∗ T ) = T ∗ (T ∗ ) = T ∗ T,
2
hT ∗ T v, vi = hT v, T vi = kT vk > 0.
Se T não é invertı́vel, então T ∗ T é apenas autoadjunto e positivo semidefinido.

7.46 Proposição. Toda projeção ortogonal em um espaço vetorial métrico é um operador autoadjunto.
Prova: Seja E ∈ Hom (V ) uma projeção. Então existe uma base B0 = {e1 , . . . , em } para im E e uma base
B00 = {em+1 , . . . , en } para ker E tais que B = {e1 , . . . , en } é uma base para V que diagonaliza E e

Im 0
[E]B = .
0 0
Usando o processo de ortogonalização de Gram-Schmidt, podemos escolher B0 e B00 ortonormais. Se E é

uma projeção ortogonal, então B0 ⊥ B00 e segue imediatamente que B é uma base ortonormal para V que
diagonaliza E. Daı́,
∗ ∗
∗ ∗ Im 0 Im 0 Im 0
[E ]B = ([E]B ) = = = = [E]B ,
0 0 0 0 0 0
e portanto E é autoadjunto.
7.47 Proposição. Seja T ∈ Hom (V ) um operador normal diagonalizável sobre um espaço métrico real de
dimensão finita. Então T é autoadjunto.
Prova: Por definição, existe uma base para V constituı́da por autovetores de T . Pelo Teorema 7.42, au-
toespaços correspondentes a autovalores distintos são ortogonais. Usando o processo de ortogonalização de
Gram-Schmidt em cada autoespaço, podemos obter uma base ortonormal de autovetores de T . Consequen-
temente, podemos escrever
V = W1 ⊕⊥ . . . ⊕⊥ Wk
e
T = λ1 E1 + . . . + λk Ek ,
onde cada Ei é uma projeção ortogonal e portanto um operador autoadjunto. Como a soma de operadores
autoadjuntos é um operador autoadjunto, segue o resultado.
7.48 Teorema. Seja T ∈ Hom (V ) um operador normal diagonalizável sobre um espaço métrico de dimensão
finita. Então, os autovalores de T são
(i) não-negativos, se e somente se T é positivo semidefinido;
(ii) positivos, se e somente se T é positivo definido;
(iii) ±1, se e somente se T é um morfismo métrico.
Prova: Seja
T = λ 1 E1 + . . . + λ k Ek
a resolução espectral de T . Temos
* k k
+
X X
hT v, vi = λi Ei v, Ej v
i=1 j=1
k
X
= λi hEi v, Ej vi
i,j=1
k
X 2
= λi kEi vk ,
i,j=1
logo, tomando v ∈ Wi para i = 1, . . . , k, concluı́mos que hT v, vi > 0 para todo v ∈ V se e somente se λi > 0
para todo i e que hT v, vi > 0 para todo v ∈ V se e somente se λi > 0 para todo i.
Além disso, como projeções ortogonais são autoadjuntas, segue que
T T ∗ = (λ1 E1 + . . . + λk Ek ) (λ1 E1 + . . . + λk Ek )
2 2
= |λ1 | E1 + . . . + |λk | Ek .
Se |λ1 | = . . . = |λk | = 1, então T T ∗ = I e T é um morfismo métrico. Reciprocamente, se T T ∗ = I, então
2 2
|λ1 | E1 + . . . + |λk | Ek = I,
donde, multiplicando a equação por Ej , obtemos
2
Ej = |λj | Ej ,
o que implica |λj | = 1.
7.8 Métodos Variacionais

Métodos variacionais são extremamente importantes em várias áreas da Matemática, Pura e Aplicada. Em
Álgebra Linear Numérica, eles são a base de vários métodos eficientes importantes para a resolução de
sistemas lineares e de obtenção de autovalores de matrizes simétricas.
7.49 Notação. Dada uma matriz simétrica definida positiva A, denotamos o produto interno induzido por
A por
hv, wiA = v t Aw
e a correspondente norma associada por
q √
kvkA = hv, viA = v t Av.

7.50 Teorema (Método Variacional para a Solução de Sistemas Lineares). Seja A uma matriz
simétrica definida positiva. A solução do sistema
Av = b
é dada pelo ponto v que minimiza o funcional
1 t 1 2
f (w) = w Aw − wt b = kwkA − hw, bi .
2 2
Prova: Como A é uma matriz simétrica definida positiva, A é invertı́vel e existe uma solução única v para
o sistema Av = b. Observando que
wt Av = hw, viA = hv, wiA = v t Aw,
obtemos
1 t 1
f (w) − f (v) = w Aw − wt b − v t Av + v t b
2 2
1 t 1
= w Aw − wt Av − v t Av + v t Av
2 2
1 t 1
= w Aw − wt Av + v t Av
2 2
1 t 1 t 1 1
= w Aw − w Av − v t Aw + v t Av
2 2 2 2
1 t 1
= w A (w − v) − v t A (w − v)
2 2
1 t
= (w − v) A (w − v) .
2
Como A é definida positiva, segue que
t
(w − v) A (w − v) = hA (w − v) , (w − v)i > 0
e
t
(w − v) A (w − v) = 0
se e somente se w = v. Portanto,
f (w) > f (v)
para todo w 6= v e o mı́nimo de f ocorre em v.
Observe que definindo um produto interno a partir da matriz simétrica definida positiva A da maneira usual
por hv, wi = wt Av, o funcional f pode ser escrito na forma
1
f (w) = hw, wi − wt b.
2
Outra maneira de enxergar o resultado do teorema anterior é observar que o gradiente do funcional f é
∇f (w) = Aw − b;
se v é um ponto de mı́nimo temos ∇f (v) = 0, ou seja,
Av = b.
Este método variacional é a base do Método do Gradiente Conjugado para a resolução de sistemas lineares
envolvendo matrizes simétricas positivas definidas, que aparecem frequentemente nas aplicações.
Veremos agora que o menor autovalor de um operador autoadjunto pode ser encontrado como o mı́nimo
de um certo funcional, enquanto que o seu maior autovalor é o máximo deste mesmo funcional:
7.51 Teorema (Princı́pio de Rayleigh). Sejam V um espaço vetorial métrico positivo definido de di-
mensão n e T ∈ Hom (V ) um operador autoadjunto. Sejam
λ1 6 . . . 6 λn
os autovalores de T , de modo que λ1 é o menor autovalor de T e λn é o maior autovalor de T . Então
hT v, vi
λ1 = min 2 (7.4)
v∈V kvk
v6=0
e
hT v, vi
λn = max 2 (7.5)
v∈V kvk
v6=0
Prova: Seja B = {e1 , . . . , en } uma base ortonormal de autovetores de T correspondentes aos autovalores
n
v i ei temos
P
λ1 6 . . . 6 λn de T . Então, se v =
i=1
n
2
X 2
λ1 kvk = λ1 v i
i=1
n
X 2
6 λi v i
i=1
Xn
= λi v i v j hei , ej i
i,j=1
Xn
λi v i ei , v j ej

=
i,j=1
* n n
+
X X
i j
= λ i v ei , v ej
i=1 j=1
* n n
+
X X
i j
= v T ei , v ej
i=1 j=1
* n
! n
+
X X
i j
= T v ei , v ej
i=1 j=1
= hT v, vi .
Portanto, para todo v ∈ V , v 6= 0, vale

hT v, vi
λ1 6 2 .
kvk
O mı́nimo é atingido em v = v1 ou em qualquer outro autovetor de T associado a λ1 . De maneira comple-
tamente análoga obtemos
Xn n
X
2
λn kvk = λn vi2 > λi vi2 = hT v, vi .
i=1 i=1
7.52 Definição. O funcional q : V −→ R definido por
hT v, vi
q (v) = 2
kvk
é chamado o quociente de Rayleigh de T .

Assim, o menor autovalor de T é o valor mı́nimo do quociente de Rayleigh, enquanto que o maior autovalor
de T é o valor máximo do quociente de Rayleigh. Os demais autovalores λ2 , . . . , λn−1 de T são pontos de
sela e podem ser encontrado através de um princı́pio de minimax:
7.53 Teorema (Princı́pio de Minimax para Autovalores). Sejam V um espaço vetorial métrico positivo
definido de dimensão n e T ∈ Hom (V ) um operador autoadjunto. Sejam
λ1 6 . . . 6 λn
os autovalores de T . Então  
λj = min  max hT v, vi . (7.6)

W <V :dim W =j v∈W
kvk=1
Prova: Seja W ⊂ V um subespaço de dimensão j. Primeiro mostraremos que
max hT v, vi > λj .
v∈W
kvk=1
Seja B = {e1 , . . . , en } uma base ortonormal de autovetores de T correspondentes aos autovalores λ1 , . . . , λn ,

respectivamente. Seja
Z = he1 , . . . , ej−1 i .
Como Z ⊥ = hej , . . . , en i, temos
n > dim W + Z ⊥

= dim W + dim Z ⊥ − dim W ∩ Z ⊥

= j + n − (j − 1) − dim W ∩ Z ⊥

= n + 1 − dim W ∩ Z ⊥ ,

de modo que
dim W ∩ Z ⊥ > 1

n n 2
e existe v ∈ W ∩ Z ⊥ tal que kvk = 1. Escrevendo v = v k ek , temos kvk = vk
P P
= 1, donde
k=j k=j
* n n
+
X X
hT v, vi = v k T ek , v l el
k=j l=j
* n n
+
X X
k l
= v λk ek , v el
k=j l=j
n
X
= λk v k v l hek , el i
k,l=j
n
X 2
= λk v k
k=j
n
X 2
> λj vk
k=j
= λj .
Para completar a demonstração, devemos encontrar um subespaço W ⊂ V de dimensão j tal que hT v, vi 6

λj para todo v ∈ W com kvk = 1. Tomemos W = he1 , . . . , ej i. Temos

j j
* +
X X
hT v, vi = v k T ek , v l el
k=1 l=1
j j
* +
X X
k l
= v λ k ek , v el
k=1 l=1
j
X
= λk v k v l hek , el i
k,l=1
j
X 2
= λk v k
k=1
j
X 2
6 λj vk
k=1
= λj .
O minimax é atingido obviamente em vj .

Capı́tulo 8
Espaços Hermitianos
8.1 Produto Hermitiano

8.1 Definição. Seja V um espaço vetorial complexo. Um produto hermitiano em V é um funcional
h·, ·i : V × V −→ C que satisfaz as condições:
(i) Para todos u, v, w ∈ V
hv + w, ui = hv, ui + hw, ui
(ii) Para todos v, w ∈ V e para todo α ∈ C
hαv, wi = α hv, wi ,
hv, αwi = α hv, wi ,
(iii) Para todos v, w ∈ V

hv, wi = hw, vi.
(iv) Para todo v 6= 0

hv, vi > 0.
Um espaço vetorial complexo dotado de um produto hermitiano é chamado um espaço hermitiano.

Pela condição (ii), se 0 denota o vetor nulo, segue que
h0, vi = 0 (8.1)
para todo v ∈ V , pois

h0, vi = h00, vi = 0 h0, vi = 0.
Em particular,
hv, vi > 0 para todo v ∈ V (8.2)
e decorre de (iv) que
hv, vi = 0 se e somente se v = 0. (8.3)
A condição
hv, αwi = α hv, wi
184
não precisa ser especificada separadamente pois é uma consequência da linearidade do produto hermitiano
com relação à primeira variável e da comutatividade conjugada:
hv, αwi = hαw, vi = α hw, vi = αhw, vi = α hv, wi .
Em particular, temos
hαv + βw, ui = α hv, ui + β hw, ui , (8.4)

hu, αv + βwi = α hu, vi + β hu, wi (8.5)
para todos u, v, w ∈ V e para todos α, β ∈ K.

Note que um produto hermitiano não é um funcional bilinear, porque ele não é linear na segunda variável,
mas apenas linear conjugado. A exigência da linearidade conjugada na segunda variável decorre da condição
(iii) de comutatividade conjugada. Esta, por sua vez é necessária para assegurar consistência com a condição
(iv). De fato, se valessem a bilinearidade, a comutatividade hv, wi = hw, vi e também a condição (iv),
terı́amos
0 < hiv, ivi = i2 hv, vi = − hv, vi < 0.
A condição (iv) tem prioridade sobre a bilinearidade e comutatividade do produto interno, isto é, abdicamos
da comutatividade a fim de que (iv) valha, porque é esta última propriedade que nos permite definir uma
noção de norma de vetores a partir do produto hermitiano em espaços complexos, como veremos na próxima
seção.
8.2 Proposição. O produto hermitiano é completamente determinado por sua parte real, isto é, se V é um
espaço vetorial complexo com produto hermitiano h·, ·i, então
hv, wi = Re hv, wi + i Re hv, iwi .
Prova: Temos
hv, wi = Re hv, wi + i Im hv, wi .
Mas se z ∈ C, então
Im z = Re (−iz) ,
logo
Im hv, wi = Re (−i hv, wi) = Re hv, iwi .

8.3 Exemplo. Definimos um produto hermitiano em Cn da seguinte forma. Se
v = v1 , . . . , vn ,

w = w1 , . . . , wn ,

são vetores de Cn , então

n
X
hv, wi = v i wi .
i=1
Este é o chamado produto hermitiano canônico em Cn .

8.4 Exemplo. Se V é um espaço vetorial complexo e W é um espaço vetorial complexo com produto
hermitiano, se T : V −→ W é um morfismo linear injetivo, definimos um produto hermitiano em V a partir
do produto hermitiano em W por
hv, wiV := hT v, T wiW .
Dizemos que h·, ·iV é o produto hermitiano em V induzido pelo produto hermitiano em W através do
morfismo linear injetivo T .
Claramente, todas as propriedades de um produto hermitiano são satisfeitas por h·, ·iV , consequência da
linearidade de T e do fato de h·, ·iW ser um produto hermitiano; a definição positiva é consequência também
da injetividade de T .
8.5 Definição. Dada uma matriz complexa A ∈ Mn (C), definimos a sua transposta conjugada A† por
i
A† j
= Aji .
Dizemos que uma matriz A é hermitiana se
A† = A.

Se A possui apenas entradas reais, sua transposta conjugada coincide com sua transposta; matrizes hermiti-
anas reais são portanto matrizes simétricas. Note que para uma matriz ser hermitiana, ela deve ser quadrada
e todos os elementos em sua diagonal principal devem ser reais.
8.6 Exemplo. Temos
 †
1−i 2
 3 + 2i 1+i 3 − 2i 7
4  =
2 4 1−i
7 1+i
e
1 2+i
2−i 4
é uma matriz hermitiana.
A transposição conjugada satisfaz as propriedades análogas às da transposição, com pequenas diferenças:
8.7 Proposição. Sejam A, B ∈ Mn (C) e z ∈ C. Então valem
(i)
†
(zA) = zA† .
(ii)
†
(AB) = B † A† .
(iii)
†
A† = A.
(iv)
det A† = det A.

(v)
tr A† = tr A.

Prova: Exercı́cio.
8.8 Exemplo. Se os vetores em Cn são representados por matrizes coluna, então o produto hermitiano
canônico de Cn pode ser escrito na forma
hv, wi = v † w = w† v. (8.6)
Se A é uma matriz complexa n × n invertı́vel, definimos o produto hermitiano em Cn induzido do produto

hermitiano canônico pela matriz A por
hv, wiA = hAv, Awi = v † (A† A) w = w† A† A v.

(8.7)
Note que A† A é uma matriz hermitiana. Quando A = I, ele é simplesmente o produto interno hermitiano
em Cn .
8.9 Exemplo. Definimos um produto hermitiano em Mn (C) por
hA, Bi = tr AB †

ou, equivalentemente,
n
X
hA, Bi = Aij Bji .
i,j=1

8.10 Exemplo. Se L2 ([0, 1] ; C) denota o espaço das funções quadrado integráveis no intervalo [0, 1] com
valores em K, definimos um produto hermitiano neste espaço de dimensão infinita por
Z 1
hf, gi = f (t) g (t) dt.
0

8.11 Definição. Dizemos que uma matriz hermitiana H ∈ Mn (C) é definida positiva se
v † Hv > 0
para todo v ∈ V .
8.12 Proposição. Seja V um espaço complexo de dimensão finita. Então todo produto hermitiano h·, ·i em
V é induzido por uma matriz hermitiana, isto é, existe uma matriz hermitiana invertı́vel definida positiva
H ∈ Mn (K) tal que
hv, wi = v † Hw = w† Hv.
Se V é um espaço vetorial real,

hv, wi = v t Aw
para alguma matriz real simétrica definida positiva A.

Reciprocamente, se H ∈ Mn (C) é uma matriz hermitiana invertı́vel definida positiva, então a equação
acima define um produto interno em V .
Prova: Seja B = {e1 , . . . , en } uma base para V . Afirmamos que se H ∈ Mn (C) é definida por
Hji = hej , ei i ,
então H é uma matriz hermitiana invertı́vel definida positiva. Com efeito,
Hji = hej , ei i = hei , ej i = Hij .
se
n
X
v= v i ei ,
i=1
n
X
w= w j ej ,
j=1
temos
* n n
+
X X
i j
hv, wi = v ei , w ej
i=1 j=1
n
X
= v i wj hei , ej i
i,j=1
n
X n
X
= wj hei , ej i v i
j=1 i=1
Xn Xn
= wj Hij v i
j=1 i=1
†
= w Hv.
Como
v † Hv = hv, vi > 0
para todo v 6= 0, em particular ker H = {0} e portanto H é invertı́vel.
Reciprocamente, se H é uma matriz hermitiana invertı́vel que satisfaz v † Hv > 0 para todo v ∈ V ,
definimos
hv, wi = w† Hv,
É fácil ver que as propriedades (i), (ii) e (iv) da Definição 8.1 são válidas. Para verificar (iii), observando
que a transposta conjugada de uma matriz 1 × 1 é simplesmente sua conjugada, temos
†
hv, wi = w† Hv = v † Hw = v † Hw = hw, vi.

8.2 Espaços Normados Complexos

Uma norma pode ser definida a partir de um produto hermitiano como no caso real como veremos a seguir.
Como no caso real, se
p
kvk = hv, vi
dizemos que a norma é derivada do produto hermitiano ou induzida pelo produto hermitiano.
8.13 Proposição (Desigualdade de Cauchy-Schwarz). Sejam V um espaço vetorial complexo com

produto hermitiano h·, ·i e k·k a norma derivada deste produto hermitiano. Então
|hv, wi| 6 kvk kwk
Prova: A demonstração é idêntica à do caso real.
8.14 Proposição. Seja V um espaço vetorial complexo com produto hermitiano. Então
p
kvk = hv, vi (8.8)
define uma norma em V .
Prova: A condição (i) da definição decorre do produto interno ser positivo definido.
A condição (ii) da definição decorre de
p p p p
kαvk = hαv, αvi = αα hv, vi = α2 hv, vi = |α| hv, vi = |α| kvk .
Finalmente, a desigualdade triangular é provada usando a desigualdade de Cauchy-Schwarz:
2
= hv, vi + hv, wi + hw, vi + hw, wi
= hv, vi + hv, wi + hv, wi + hw, wi
2 2
= kvk + 2 Re hv, wi + kwk
2 2
6 kvk + 2 Re |hv, wi| + kwk
2 2
= kvk + 2 |hv, wi| + kwk
2 2
6 kvk + 2 kvk kwk + kwk
2
= (kvk + kwk) .

8.15 Proposição (Teorema de Pitágoras). Seja V um espaço vetorial hermitiano. Se v, w ∈ V são
vetores ortogonais, vale a identidade de Pitágoras
2 2 2
kv + wk = kvk + kwk . (8.9)
Prova: Temos
2
= hv, vi + hv, wi + hw, vi + hw, wi
= hv, vi + hv, wi + hv, wi + hw, wi
2 2
= kvk + 2 Re hv, wi + kwk
= hv, vi + hw, wi
2 2
= kvk + kwk .

Diferentemente do caso real, a recı́proca não vale, pois como
2 2 2
kv + wk = kvk + 2 Re hv, wi + kwk ,
a validade da identidade de Pitágoras implica apenas que
Re hv, wi = 0.
8.16 Proposição (Identidades Polares). Se V é um espaço vetorial hermitiano, então para todos v, w ∈ V
vale
4
1 2 1 2 i 2 i 2 1X n 2
hv, wi = kv + wk − kv − wk + kv + iwk − kv − iwk = i kv + in wk .
4 4 4 4 4 n=1
Prova: Temos
1 2 1 2 i 2 i 2
kv + wk − kv − wk + kv + iwk − kv − iwk
4 4 4 4
1 1
= (hv, vi + hv, wi + hw, vi + hw, wi) − (hv, vi − hv, wi − hw, vi + hw, wi)
4 4
i i
+ (hv, vi − i hv, wi + i hw, vi + hw, wi) − (hv, vi + i hv, wi − i hw, vi + hw, wi)
4 4
1 1 1 1 1 1
= hv, wi + hw, vi + hv, wi − hw, vi + hv, wi − hw, vi
2 2 4 4 4 4
= hv, wi .

8.17 Proposição (Identidade do Paralelogramo). Sejam V um espaço vetorial hermitiano. Então

2 2 2 2
Prova: Temos
2 2
kv + wk + kv − wk = (hv, vi + hv, wi + hw, vi + hw, wi)
+ (hv, vi − hv, wi − hw, vi + hw, wi)

2 2
= 2 kvk + kwk + Re hv, wi − Re hv, wi

2 2
= 2 kvk + kwk .
8.18 Proposição. Se V é um espaço vetorial complexo, então a identidade polar

1 2 1 2 i 2 i 2
hv, wi := kv + wk − kv − wk + kv + iwk − kv − iwk
4 4 4 4
define um produto hermitiano h·, ·i em V tal que a sua norma é derivada dele.
8.3 Operadores Adjuntos e Operadores Hermitianos

8.3.1 Teorema da Representação de Riesz
Como em um espaço vetorial métrico, em um espaço vetorial hermitiano de dimensão finita todo funcional
linear é derivado do produto hermitiano e V e V ∗ podem ser naturalmente identificados:
8.19 Teorema (Teorema da Representação de Riesz). Seja V um espaço vetorial hermitiano de

dimensão finita e f ∈ V ∗ um funcional linear. Então existe um único vetor v ∈ V tal que
f (w) = hw, vi para todo w ∈ V.
Esta correspondência determina um isomorfismo canônico (isto é, independente de bases) entre V e V ∗ .
Em particular,
⊥
ker f = hvi .
Prova: Seja {e1 , . . . , em } uma base ortonormal para V . Se w ∈ V , então

m
X
w= hw, ek i ek .
k=1
Logo,
m
X
f (w) = hek , wi f (ek )
k=1
Xm
= hf (ek ) ek , wi
k=1
*m +
X
= f (ek ) ek , w .
k=1
Tome
m
X
v= f (ek ) ek .
k=1
Se v 0 ∈ V é outro vetor tal que f (w) = hw, v 0 i para todo w ∈ V , então hw, vi = hw, v 0 i para todo w ∈ V ,
donde hw, v − v 0 i = 0. Tomando w = v − v 0 concluı́mos que v − v 0 = 0, donde v = v 0 .
Note que, fixado v ∈ V , o funcional
g (w) = hv, wi para todo w ∈ V
/ V ∗ , porque g é apenas linear conjugado.

não é um funcional linear, isto é, g ∈
8.3.2 Morfismos Adjuntos

8.20 Definição. Sejam V, W espaços vetoriais hermitianos e T : V −→ W uma aplicação. Dizemos que
uma aplicação T ∗ : W −→ V é a adjunta de T se
hT v, wi = hv, T ∗ wi
para todos v ∈ V, w ∈ W .
Observe que também temos
hv, T wi = hT ∗ v, wi ,
pois
hv, T wi = hT w, vi = hw, T ∗ vi = hT ∗ v, wi .
Isso implica que a a adjunta de T ∗ é a própria T :
isto é,
∗
(T ∗ ) = T.
8.21 Proposição. Sejam V, W espaços vetoriais hermitianos e T : V −→ W um morfismo linear.

Se a adjunta de T existir, ela é única e é um morfismo linear.
Prova: Sejam w1 , w2 ∈ W e α, β ∈ C, conforme o caso. Então, para todo v ∈ V temos
hv, T ∗ (αw1 + βw2 )i = hT v, αw1 + βw2 i

= α hT v, w1 i + β hT v, w2 i
= α hv, T ∗ w1 i + β hv, T ∗ w2 i
= hv, αT ∗ w1 + βT ∗ w2 i ,
o que implica, pela não degeneracidade produto hermitiano, que
T ∗ (αw1 + βw2 ) = αT ∗ w1 + βT ∗ w2 .
O mesmo argumento também estabelece a unicidade de T ∗ .

Observe que na demonstração do lema não usamos o fato de T ser linear para provar que a adjunta T ∗ é
linear. Segue que, quando existe, a adjunta de qualquer aplicação é necessariamente linear. Por outro lado,
como a adjunta da adjunta de T é a própria aplicação T , porque
como vimos antes do lema concluı́mos que T (adjunta de uma aplicação) deve ser linear. Em outras palavras,
para que a adjunta de uma aplicação T exista, T já deve ser uma aplicação linear. Assim, não há realmente
nenhum ganho em generalidade em definir a adjunta de uma aplicação arbitrária ao invés de definir apenas
a adjunta de aplicações lineares, pois as únicas aplicações que possuem adjuntas são as aplicações lineares.
8.22 Proposição. Sejam V, W espaços vetoriais hermitianos. Então todo morfismo linear T : V −→ W
possui um único adjunto linear.
Prova: Para cada w ∈ W , a aplicação v 7→ hT v, wi é um funcional linear em V ∗ . Pelo Teorema de
Representação de Riesz existe um único vetor u ∈ V tal que
hT v, wi = hv, ui para todo v ∈ V.
Definimos uma aplicação T ∗ : W −→ V adjunta de T por
T ∗ w = u.
Pelo proposição anterior, T ∗ é única e linear.

8.23 Proposição. Seja V um espaço hermitiano de dimensão finita e T ∈ Hom (V ). Se B = {e1 , . . . , en }
é uma base ortonormal para V e
A = [T ]B ,
então
[T ∗ ]B = A† .
Em outras palavras, em relação a uma base ortonormal, a matriz do operador adjunto T ∗ é a transposta
conjugada da matriz do operador T .
Prova: Seja B = [T ∗ ]B . Pela Proposição 6.67 generalizada do caso positivo definido para o produto
hermitiano,
Aij = hT ej , ei i ,
Bji = hT ∗ ej , ei i .
Logo,
Bji = hT ∗ ej , ei i = hej , T ei i = hT ei , ej i = Aji .

8.24 Definição. Sejam V um espaço vetorial hermitiano. Dizemos que T ∈ Hom (V ) é um operador
hermitiano se
T = T ∗.
8.25 Corolário. Seja V um espaço vetorial hermitiano de dimensão finita e T ∈ Hom (V ) um operador
linear hermitiano. Se B é uma base ortonormal para V então A = [T ]B é uma matriz hermitiana.
8.26 Proposição. Sejam V um espaço vetorial métrico ou hermitiano e T, S ∈ Hom (V ). Então
(i)
∗
(T + S) = T ∗ + S ∗ .
(ii)
∗
(αT ) = αT ∗ .
(iii)
∗
(T S) = S ∗ T ∗ .
(iv) Consequentemente, se T é invertı́vel,
∗ −1
T −1 = (T ∗ ) .
8.3.3 Alternativa de Fredholm

8.27 Teorema. Sejam V, W espaços vetoriais hermitianos de dimensão finita e T ∈ Hom (V, W ). Então
(i)
⊥
ker T ∗ = (im T ) .
⊥
im T ∗ = (ker T ) .
(ii)
⊥
ker T = (im T ∗ ) .
⊥
im T = (ker T ∗ ) .
(iii)
dim (ker T ) = dim (ker T ∗ ) + (dim V − dim W ) .
dim (im T ) = dim (im T ∗ ) .
Em particular,
V = ker T ∗ ⊕⊥ im T.
Prova: (i) Temos

w ∈ ker T ∗
⇔ T ∗w = 0
⇔ hv, T ∗ wi = 0 para todo v ∈ V
⇔ hT v, wi = 0 para todo v ∈ V
⇔ w é ortogonal a im T
⊥
⇔ w ∈ (im T ) ,
o que prova a primeira equação.
Para provar a segunda, seja w ∈ im T ∗ , digamos w = T ∗ u para algum u ∈ V . Se v ∈ ker T , então
0 = h0, ui = hT v, ui = hv, T ∗ ui = hv, wi,
⊥ ⊥ ⊥
de modo que w ∈ (ker T ) , isto é, im T ∗ ⊂ (ker T ) . Para provar que im T ∗ = (ker T ) basta então provar
que eles possuem a mesma dimensão. Pelo segunda equação do item (iii), cuja demonstração segue da
primeira equação deste item, temos
dim (im T ∗ ) = dim (im T )
= dim V − dim (ker T )
⊥
= dim (ker T ) ,
a última igualdade seguindo da Proposição 6.42 generalizada para espaços hermitianos.
(ii) Segue de (i), substituindo T por T ∗ .
⊥
(iii) ker T ∗ = (im T ) implica pela Proposição 6.43 generalizada para espaços hermitianos que ker T ∗ = im T ,
logo
⊥
dim (im T ) = dim (ker T ∗ )
= dim W − dim (ker T ∗ )
= dim (im T ∗ ) .
⊥ ⊥
Da mesma forma, im T ∗ = (ker T ) implica (im T ∗ ) = ker T , donde
⊥
dim (ker T ) = dim (im T ∗ )
= dim V − dim (im T ∗ )
= dim V − (dim W − dim (ker T ∗ ))
= dim (ker T ∗ ) + (dim V − dim W ) .

⊥
Pelo teorema, im T = (ker T ∗ ) . Segue que a equação
Tv = w
tem solução se e somente se
⊥
w ∈ (ker T ∗ ) .
8.28 Teorema (Alternativa de Fredholm). Sejam V um espaço vetorial hermitiano de dimensão finita
e T ∈ Hom (V ). Então vale apenas uma e somente uma das alternativas a seguir:
ou
T v = w tem solução,
ou
T ∗ z = 0 tem solução z tal que hw, zi =
6 0.
8.4 Operadores Unitários

Generalizamos o conceito de operadores métricos para espaços hermitianos:
8.29 Definição. Seja V um espaço hermitiano. Dizemos que T ∈ Hom (V ) é um operador unitário se
hv, wi = hT v, T wi .

Operadores unitários em espaços vetoriais hermitianos correspondem a operadores métricos em espaços
vetoriais métricos.
8.30 Proposição. Seja V um espaço hermitiano. T é um operador unitário se e somente se
T ∗ T = id .
Se V tem dimensão finita, T é um operador unitário se e somente se
T T ∗ = T ∗ T = id .
Prova: Se T preserva o produto hermitiano, para todos v, w ∈ V temos
hv, wi = hT v, T wi = hv, T ∗ T wi
logo T ∗ T w = w para todo w ∈ V , isto é, T ∗ T = I. Reciprocamente, se T ∗ T = I, então
hv, wi = hv, T ∗ T wi = hT v, T wi .
Em dimensão finita, ST = I é equivalente a T S = I, como já vimos.

8.31 Exemplo. Em espaços de dimensão infinita, podemos não ter T T ∗ == I, pois um operador métrico
ou um operador unitário em um espaço de dimensão infinita não precisa ser sobrejetivo. Por exemplo,
considerando o espaço das sequências reais quadrado-somáveis
∞
( )
X 2
2
`R = f : N −→ R : |fn | < ∞
n=1
com a métrica
∞
X
hf, gi = fn gn ,
n=1
ou analogamente o espaço das sequências complexas quadrado-somáveis
∞
( )
X 2
2
`C = f : N −→ R : |fn | < ∞
n=1
com o produto hermitiano

∞
X
hf, gi = fn gn ,
n=1
o operador shift
0 se n = 1,
(T f )n =
fn−1 se n > 1,
é um operador métrico, no primeiro caso, e um operador unitário, no segundo, e não é sobrejetivo.
8.32 Definição. Dizemos que uma matriz complexa A é unitária se
AA† = A† A = I.

Em outras palavras, uma matriz unitária é uma matriz cuja inversa é a sua transposta conjugada
A−1 = A† ,
correspondente no caso real a uma matriz ortogonal, cuja inversa é a sua transposta.
8.33 Proposição. Seja V um espaço vetorial hermitiano de dimensão finita. Um operador linear T ∈
Hom (V ) é unitário se e somente se a sua matriz em relação a uma base ortonormal é uma matriz unitária.
8.34 Proposição. Se T é um operador unitário, então
|det T | = 1.
Prova: Pois
det (T T ∗ ) = det I = 1
e
t
det T ∗ = det T t = det T = det T = det T ,
logo
2
det (T T ∗ ) = det T det T ∗ = det T det T = |det T | .

Em particular, operadores unitários preserva volumes, o que era de se esperar.
8.5 Diagonalização de Operadores Hermitianos

8.35 Proposição. Se T é um operador hermitiano, então todo autovalor de T é real.
Além disso, autovetores de T associados a autovalores distintos são ortogonais.
Prova: Suponha que λ é um autovalor de T . Seja v um autovetor não nulo associado a λ. Então
λ hv, vi = hλv, vi
= hT v, vi
= hv, T vi
= hv, λvi
= λ hv, vi
e portanto
λ = λ,
isto é, λ ∈ R.
Sejam λ1 , λ2 autovalores reais distintos de T e v1 , v2 autovetores não nulos associado a λ1 , λ2 , respecti-
vamente. Então
λ1 hv1 , v2 i = hλ1 v1 , v2 i
= hT v1 , v2 i
= hv1 , T v2 i
= hv1 , λ2 v2 i
= λ2 hv1 , v2 i ,

hv1 , v2 i = 0.

8.36 Proposição. Sejam V um espaço vetorial hermitiano e T ∈ Hom (V ). Se W ⊂ V é um subespaço
invariante por T , então W ⊥ é invariante sob T ∗ .
Prova: Se w ∈ W ⊥ , então hv, wi = 0 para todo v ∈ W , logo
hv, T ∗ wi = hT v, wi = 0
para todo v ∈ W , pois T v ∈ W . Portanto, T ∗ w ∈ W ⊥ .

8.37 Teorema. Seja V um espaço vetorial hermitiano. Se T ∈ Hom (V ) é um operador hermitiano, então
T é diagonalizável através de uma base ortonormal.
Prova: A demonstração será por indução em dim V . Se dim V = 1, isso dá uma base ortonormal para
V constituı́da de autovetores de T . Assuma o teorema verdadeiro para espaços com dimensão menor que
n = dim V . Seja v1 um autovetor de norma 1 associado a um autovalor real de T e W = hv1 i. Então W é
invariante por T e pela proposição anterior W ⊥ é invariante por T ∗ = T . Mas dim W ⊥ = n − 1, logo pela
hipótese de indução existe uma base ortonormal {v2 , . . . , vn } para W ⊥ de autovetores de T |W ⊥ e portanto
de T . Como V = W ⊕ W ⊥ , segue que {v1 , v2 , . . . , vn } é uma base ortonormal para V de autovetores de T .

8.38 Corolário. Seja A uma matriz hermitiana. Então existe uma matriz unitária U tal que
D = U † AU
é uma matriz diagonal real.

8.39 Corolário. Seja V um espaço vetorial hermitiano de dimensão finita. Então um operador linear em
V é realmente diagonalizável através de uma base ortonormal se e somente se ele é hermitiano.
Prova: Se T ∈ Hom (V ) é um operador diagonalizável através de uma base ortonormal, então existem uma
matriz diagonal real D e uma matriz unitária U tal que
D = U † AU.
Em particular, como
D† = D,
(observe que esta propriedade não vale para matrizes diagonais complexas) segue que
A = U DU †
e
†
A† = U DU †
†
= U † D† U †
= U DU †
= A.
8.6 Operadores Normais Complexos

O objetivo principal desta seção é resolver o seguinte problema: em que condições um operador complexo
diagonalizável possui uma base ortonormal em relação à qual a sua matriz é diagonal?
Vamos começar obtendo condições necessárias para isso acontecer. Se B = {e1 , . . . , en } é uma base
ortonormal que diagonaliza o operador T , então T é representado nesta base por uma matriz diagonal
com entradas diagonais λ1 , . . . , λn . O operador adjunto T ∗ é representado nesta mesma base pela matriz
transposta conjugada, ou seja uma matriz diagonal com entradas diagonais λ1 , . . . , λn . Em particular, como
ambos operadores são representados por matrizes diagonais em relação a uma mesma base, segue que eles
comutam: T T ∗ = T ∗ T . Veremos no final da seção que esta condição também é suficiente no caso complexo.
No caso real, esta condição não é suficiente, pois pode ocorrer que T nem possua autovalores (por exemplo,
quase todas as rotações em R2 ).
8.40 Definição. Seja V um espaço vetorial hermitiano. Dizemos que T ∈ Hom (V ) é um operador normal
se
T T ∗ = T ∗ T.
Analogamente, dizemos que uma matriz complexa A é normal se
AA† = A† A.

Exemplos de operadores normais complexos são operadores hermitianos e operadores unitários.
8.6.1 Caracterização Geométrica de Operadores Normais Complexos

8.41 Proposição. Sejam V um espaço vetorial hermitiano e T ∈ Hom (V ). Então
hT v, vi = 0
para todo v ∈ V se e somente se

T = 0.
Prova: Suponha hT u, ui = 0 para todo u ∈ V . Dados quaisquer v, w ∈ V , temos
0 = hT (v + w) , v + wi
= hT v, vi + hT v, wi + hT w, vi + hT w, wi
= hT v, wi + hT w, vi ,
0 = hT (v + iw) , v + iwi
= hT v, vi + hT v, iwi + hiT w, vi + hT (iw) , iwi
= −i hT v, wi + i hT w, vi ,
ou seja,
hT v, wi + hT w, vi = 0,
hT v, wi − hT w, vi = 0,
Somando as duas equações obtemos

hT v, wi = 0
para todo w ∈ V , logo T v = 0. Como v é arbitrário, isso implica T = 0. A recı́proca é imediata.
Observe que este resultado não vale em geral para espaços vetoriais métricos reais, mesmo definidos positivos:
uma rotação de 90◦ em R2 satisfaz hT v, vi = 0 para todo v.
8.42 Proposição. Sejam V um espaço vetorial métrico ou hermitiano e T ∈ Hom (V ). Então T é hermi-
tiano se e somente se
hT v, vi ∈ R
para todo v ∈ V .
Prova: Se T é hermitiano, então

hT v, vi = hv, T vi = hT v, vi,
logo hT v, vi ∈ R. Reciprocamente, se hT v, vi ∈ R para todo v ∈ V , então
hT v, vi = hT v, vi = hv, T vi = hT ∗ v, vi ,
de modo que
h(T − T ∗ ) v, vi = 0 para todo v ∈ V.
Da proposição anterior segue que T = T ∗ .
8.43 Teorema. Sejam V um espaço vetorial hermitiano e T ∈ Hom (V ). Então T é normal se e somente
se
kT vk = kT ∗ vk
para todo v ∈ V.
Em particular, se T é normal, segue que
Prova: Seja T normal. Então

2
kT vk = hT v, T vi
= hv, T ∗ T vi
= hv, T T ∗ vi
= hT ∗ v, T ∗ vi
2
= kT ∗ vk .
Reciprocamente, se kT vk = kT ∗ vk para todo v ∈ V , então
hT ∗ T v, vi = hT v, T vi
2
= kT vk
2
= kT ∗ vk
= hT ∗ v, T ∗ vi
= hT T ∗ v, vi
para todo v ∈ V , o que implica

h(T ∗ T − T T ∗ ) v, vi = 0
Se V é um espaço vetorial hermitiano, segue imediatamente da Proposição 8.41 que T ∗ T = T T ∗ .
Se T é um operador normal, segue que ker T = ker T ∗ . Como
V = ker T ∗ ⊕⊥ im T,
obtemos

Se V = ker T ⊕⊥ im T , não é necessariamente verdade que T é um operador normal, pois T pode ser definido
de qualquer forma arbitrária em im T .
8.6.2 Diagonalização de Operadores Normais Complexos

Embora operadores normais reais nem sempre são diagonalizáveis, pois podem não possuir sequer autovalores,
como rotações, veremos que operadores normais complexos são sempre diagonalizáveis.
8.44 Teorema. Sejam V um espaço vetorial hermitiano e T ∈ Hom (V ) um operador normal.
Então v é um autovetor para T associado ao autovalor λ se e somente se v é um autovetor para T ∗
associado ao autovalor λ.
Consequentemente, autovetores de T associados a autovalores distintos são ortogonais.
Prova: Se λ é qualquer escalar, então T − λI também é um operador normal, pois
∗
(T − λI) = T ∗ − λI
e portanto
∗
(T − λI) (T − λI) = (T − λI) T ∗ − λI

= T T ∗ − λT − λT ∗ + λλI
= T ∗ T − λT ∗ − λT + λλI
= T ∗ − λI (T − λI)

∗
= (T − λI) (T − λI) .
Segue do Teorema 8.43 que

k(T − λI) vk = T ∗ − λI v ,

logo (T − λI) v = 0 se e somente se T ∗ − λI v = 0.

Sejam v1 e v2 autovetores associados aos autovalores λ1 6= λ2 , respectivamente. Então,

λ1 hv1 , v2 i = hλ1 v1 , v2 i
= hT v1 , v2 i
= hv1 , T ∗ v2 i

= v1 , λ2 v2
= λ2 hv1 , v2 i
hv1 , v2 i = 0.

8.45 Teorema. Seja V um espaço vetorial hermitiano de dimensão finita.
Todo operador linear em V é triangularizável através de uma base ortonormal.
Prova: A demonstração será por indução em dim V . O resultado é obviamente verdadeiro se dim V = 1.
Assuma o teorema verdadeiro para espaços de dimensão menor que n = dim V . Seja vn um autovetor
de norma 1 associado a um autovalor complexo de T ∗ e W = hvn i. Então W é invariante por T ∗ e W ⊥
é invariante por T . Mas dim W ⊥ = n − 1, logo pela hipótese de indução existe uma base ortonormal
{v1 , . . . , vn−1 } de W ⊥ em relação a qual a matriz de T |W ⊥ é triangular. Como V = W ⊕ W ⊥ , segue que
{v1 , . . . , vn−1 , vn } é uma base ortonormal para V em relação à qual a matriz de T é triangular superior, pois
T vn é simplesmente uma combinação linear de v1 , . . . , vn−1 , vn .
8.46 Corolário. Seja A uma matriz complexa. Então existe uma matriz unitária U tal que
T = U † AU
é uma matriz triangular.
8.47 Teorema. Seja V um espaço vetorial hermitiano de dimensão finita. Então um operador linear em V
é diagonalizável através de uma base ortonormal se e somente se ele é normal.
Prova: Já vimos no inı́cio desta seção que todo operador diagonalizável através de uma base ortonormal é
normal. Para provar a recı́proca, seja B = {e1 , . . . , en } uma base ortonormal em relação à qual a matriz do
operador linear normal T é triangular. O resultado seguirá se provarmos que toda matriz triangular normal
é diagonal.
E, de fato, seja A = [T ]B . Como A é triangular, temos
T e1 = A11 e1 ,
donde
T ∗ e1 = A11 e1 .
Por outro lado,
n n
X i X
T ∗ e1 = A† e =
1 i
A1i ei .
i=1 i=1
Portanto, A1i = 0 para todo i > 2, o que implica A1i = 0 para todo i > 2.
Agora, em particular, a12 = 0 e o fato de A ser triangular implicam que
T e2 = A22 e2 .
Usando o mesmo argumento concluı́mos que a2i = 0 para todo i > 3. Continuando com este argumento
provamos que
T ej = Ajj ej
para todo j, logo A é diagonal.
8.48 Corolário. Seja A uma matriz normal complexa. Então existe uma matriz unitária U tal que
D = U † AU
é uma matriz diagonal.
8.7 Teoria Espectral para Operadores Normais

8.49 Teorema. Seja T ∈ Hom (V ) um operador normal sobre um espaço vetorial hermitiano de dimensão
finita. Sejam λ1 , . . . , λk os autovalores distintos de T , Wi o autoespaço associado a λi e Ei a projeção
ortogonal de V sobre Wi . Então Wi é ortogonal a Wj se i 6= j,
V = W 1 ⊕⊥ . . . ⊕⊥ W k
e
T = λ 1 E1 + . . . + λ k Ek .
Prova: A decomposição em soma direta ortogonal segue dos Teoremas 8.47. Da decomposição em soma
direta segue que
E1 + . . . + Ek = I,
donde
T = T I = T E1 + . . . + T Ek
= λ1 E1 + . . . + λk Ek .

Esta decomposição é chamada a resolução espectral do operador T .
8.50 Definição. Sejam V um espaço vetorial hermitiano e T ∈ Hom (V ) um operador hermitiano.
Dizemos que T é positivo definido se
hT v, vi > 0 (8.10)
para todo v ∈ V . Se
hT v, vi > 0 (8.11)
para todo v ∈ V , dizemos que T é positivo semidefinido.
Dado um operador linear invertı́vel T , o operador T ∗ T é sempre hermitiano e positivo definido, pois
∗ ∗
(T ∗ T ) = T ∗ (T ∗ ) = T ∗ T,
2
hT ∗ T v, vi = hT v, T vi = kT vk > 0.
Se T não é invertı́vel, então T ∗ T é apenas hermitiano e positivo semidefinido.

8.51 Proposição. Toda projeção ortogonal em um espaço vetorial hermitiano é um operador hermitiano.
Prova: Seja E ∈ Hom (V ) uma projeção. Então existe uma base B0 = {e1 , . . . , em } para im E e uma base
B00 = {em+1 , . . . , en } para ker E tais que B = {e1 , . . . , en } é uma base para V que diagonaliza E e

Im 0
[E]B = .
0 0
Usando o processo de ortogonalização de Gram-Schmidt, podemos escolher B0 e B00 ortonormais. Se E é

uma projeção ortogonal, então B0 ⊥ B00 e segue imediatamente que B é uma base ortonormal para V que
diagonaliza E. Daı́,
∗ ∗
∗ Im 0 Im 0 Im 0
[E ∗ ]B = ([E]B ) = = = = [E]B ,
0 0 0 0 0 0
e portanto E é autoadjunto.
8.52 Teorema. Seja T ∈ Hom (V ) um operador normal diagonalizável sobre um espaço hermitiano de
dimensão finita. Então, os autovalores de T são
(i) reais, se e somente se T é hermitiano;
(ii) não-negativos, se e somente se T é positivo semidefinido;
(iii) positivos, se e somente se T é positivo definido;
(iv) de módulo 1, se e somente se T é unitário.
Prova: Seja
T = λ 1 E1 + . . . + λ k Ek
a resolução espectral de T . Segue que a resolução espectral de T ∗ é
T ∗ = λ1 E1 + . . . + λk Ek .
T é hermitiano se e somente se T = T ∗ , isto é, se e somente se

λ1 − λ1 E1 + . . . + λk − λk Ek = 0.
Como Ei Ej = 0 se i 6= j e Ei não é o operador nulo, concluı́mos que T é ou hermitiano se e somente se

λi = λi , isto é, se e somente se os autovalores de T são reais.
Agora,
* k k
+
X X
hT v, vi = λi Ei v, Ej v
i=1 j=1
k
X
= λi hEi v, Ej vi
i,j=1
k
X 2
= λi kEi vk ,
i,j=1
logo, tomando v ∈ Wi para i = 1, . . . , k, concluı́mos que hT v, vi > 0 para todo v ∈ V se e somente se λi > 0
para todo i e que hT v, vi > 0 para todo v ∈ V se e somente se λi > 0 para todo i.
Finalmente, temos
T T ∗ = (λ1 E1 + . . . + λk Ek ) λ1 E1 + . . . + λk Ek

2 2
= |λ1 | E1 + . . . + |λk | Ek .
Se |λ1 | = . . . = |λk | = 1, então T T ∗ = I e T é unitário. Reciprocamente, se T T ∗ = I, então

2 2
|λ1 | E1 + . . . + |λk | Ek = I,
donde, multiplicando a equação por Ej , obtemos

2
Ej = |λj | Ej ,
o que implica |λj | = 1.

8.8 Formas Sesquilineares

8.53 Definição. Seja V um espaço vetorial complexo. Uma forma sesquilinear em V é uma função
B : V × V −→ C que satisfaz
(i) Para todos v, w, u ∈ V e para todos α, β ∈ C
B (αv + βw, u) = αB (v, u) + βB (w, u)
(ii) Para todos v, w, u ∈ V e para todos α, β ∈ C
B (u, αv + βw) = αB (u, v) + βB (u, w)
Uma forma sesquilinear é hermitiana se
B (v, w) = B (w, v)
Assim, uma forma sesquilinear é linear na primeira variável e linear conjugada (às vezes chamada antilinear )
na segunda variável.
8.54 Teorema. Seja V um espaço vetorial hermitiano de dimensão finita e B uma forma sesquilinear.
Então existe um único operador T em V tal que
B (v, w) = hT v, wi .
Esta correspondência determina um isomorfismo canônico entre o espaço das formas sesquilineares e o espaço
dos operadores Hom (V ).
Além disso, a forma B é hermitiana se e somente se T é hermitiano.
Prova: Fixe um vetor w ∈ V . Então
f (v) = B (v, w)
é um funcional linear, logo pelo Teorema de Representação de Riesz existe um único u ∈ V tal que
B (v, w) = hv, ui
para todo v ∈ V . Defina uma aplicação U : V −→ V por U w = u. Afirmamos que U é um operador linear.
De fato,
hv, U (β1 w1 + β2 w2 )i = B (v, β1 w1 + β2 w2 ) = β1 B (v, w1 ) + β 2 B (v, w2 )
= β1 hv, U (w1 )i + β 2 hv, U (w2 )i
= hv, β1 U (w1 ) + β2 U (w2 )i
para todo v ∈ V . Tomando T = U ∗ , segue que
B (v, w) = hv, U wi = hU ∗ v, wi = hT v, wi .
O argumento usual mostra que T é única.
Se B é hermitiana, para todos v, w ∈ V temos
hT v, wi = B (v, w) = B (w, v) = hT w, vi = hv, T wi ,
isto é,
T ∗ = T.

8.55 Corolário. Se B = {e1 , . . . , en } é uma base ortonormal para V ,

n
X
v= v i ei ,
i=1
n
X
w= w j ej ,
j=1
então toda forma sesquilinear pode ser escrita na forma
n
X
B (v, w) = Aij v i wj
i,j=1
para alguns Aij ∈ C.

Prova: Escreva
* n
! n
+
X X
i j
B (v, w) = hT v, wi = T v ei , w ej
i=1 j=1
n
X
= v i wj hT ei , ej i
i,j=1
e defina Aij = hT ei , ej i.
8.56 Definição. Seja V um espaço vetorial hermitiano de dimensão finita e B uma forma sesquilinear. A
função q : V −→ K definida por
q (v) = B (v, v)
é chamada a forma quadrática induzida por B.

Se B é hermitiana, dizemos que a forma quadrática é hermitiana.
Segue do Corolário 8.55 que se B = {e1 , . . . , en } é uma base ortonormal para V , toda forma quadrática pode
ser escrita na forma !
X n n
X
q (v) = q v i ei = Aij vi v j
i=1 i,j=1
para alguns Aij∈ C. Observe que quando B é hermitiana, q (v) ∈ R para todo v ∈ V , pois B (v, v) = B (v, v)
implica B (v, v) ∈ R. Vale a recı́proca:
8.57 Proposição. Seja V um espaço vetorial hermitiano.
Uma forma sesquilinear B é hermitiana se e somente se B (v, v) ∈ R para todo v ∈ V .
Prova: Assuma B (v, v) ∈ R para todo v ∈ V . Dados v, w ∈ V precisamos mostrar que B (v, w) = B (w, v).
Temos
B (v + w, v + w) = B (v, v) + B (v, w) + B (w, v) + B (w, w) .
Como B (v + w, v + w) , B (v, v) , B (w, w) ∈ R segue que
B (v, w) + B (w, v) ∈ R.
Da mesma forma, escrevendo
B (v + iw, v + iw) = B (v, v) − iB (v, w) + iB (w, v) − B (w, w) ,

concluı́mos que
−iB (v, w) + iB (w, v) ∈ R.
Números reais são iguais a seus conjugados, logo
B (v, w) + B (w, v) = B (v, w) + B (w, v),

−iB (v, w) + iB (w, v) = iB (v, w) − iB (w, v).
Somanda a primeira equação à segunda multiplicada por i, obtemos
2B (v, w) = 2B (w, v),

8.58 Teorema (Diagonalização de Formas Quadráticas). Seja V um espaço vetorial hermitiano de di-
mensão finita. Dada uma forma quadrática hermitiana q em V , existe uma base ortonormal B = {e1 , . . . , en }
para V tal que
n
! n
X
i
X 2
q (v) = q v ei = λi v i
i=1 i=1
para alguns λ1 , . . . , λn ∈ R. Além disso, se B é a forma hermitiana que induz q, temos também
n
X
B (v, w) = λi v i w i .
i=1
Prova: Seja B a forma sesquilinear hermitiana tal que q (v) = B (v, v) e T o operador linear tal que
B (v, w) = hT v, wi
para todos v, w ∈ V . Pelo Teorema 8.54 T é hermitiano, logo existe uma base ortonormal B = {e1 , . . . , en }
para V que diagonaliza T , isto é,
T ej = λj ej
com λj ∈ R, para j = 1, . . . , n. Segue que
* n
! n
+
X X
i j
B (v, w) = T v ei , w ej
i=1 j=1
n
X
= v i wj hT ei , ej i
i,j=1
Xn
= v i wj λi hei , ej i
i,j=1
X n
= λi v i w j .
i=1
A expressão para q é obtida imediatamente a partir da expressão para B.

Referências Bibliográficas
[Axler] S. AXLER, Linear Algebra Done Right, 3rd. Ed., Springer, 2015.
[Bueno] H. P. BUENO, Álgebra Linear: um segundo curso, IMPA, 2006.

[HK] K. HOFFMAN e R. KUNZE, Linear Algebra, 2nd. Ed., Prentice Hall, 1971.
[HS] M. HIRSCH e S. SMALE, Differential Equations, Dynamical Systems and Linear Al-
gebra, Academic Press, New York, 1974.
[Lang] S. LANG, Álgebra Linear, 3a. Ed., Editora Ciência Moderna, 2004.
[Roman] S. ROMAN, Advanced Linear Algebra, 3rd. Ed., Springer, 2007.
[Strang] G. STRANG, Linear Algebra and its Applications, 3rd. Ed., Brooks Cole, 1988.
207

Algebra Linear

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Algebra Linear

Enviado por

Direitos autorais:

Formatos disponíveis

Notas de Aula

Álgebra Linear e Multilinear

Notas de aula da disciplina Álgebra Linear II

4 Operadores Diagonalizáveis e Triangularizáveis 66

5 Forma Canônica de Jordan 99

6 Formas Bilineares e Espaços Vetoriais Métricos 127

7.5 Diagonalização de Operadores Autoadjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

8 Espaços Hermitianos 184

Referências Bibliográficas 207

1.1 Estruturas Algébricas Fundamentais

Comutatividade: para todos x, y, z ∈ K vale

Existência de Identidade: existe um elemento 0 ∈ K tal que para todo x ∈ K temos

Existência de Inversa: para todo x ∈ K existe −x ∈ K tal que

Comutatividade: para todos x, y, z ∈ K vale

Existência de Identidade: existe um elemento 1 ∈ K tal que para todo x ∈ K temos

Existência de Inversa: para todo x ∈ K, x 6= 0, existe x−1 ∈ K tal que

Distributividade: Para todos x, y, z ∈ K

se n existir. Caso contrário, dizemos que K tem caracterı́stica zero.

enquanto que os três últimos são corpos de caracterı́stica zero.

1.2 Espaços Vetoriais

Comutatividade: para todos u, v, w ∈ V

Existência de Inverso: para todo v ∈ V existe −v ∈ V tal que

Produto de Vetores por Escalares:

Associatividade: para todos x, y ∈ K e para todo v ∈ V vale

(ii) Para todo v ∈ V e para todos x, y ∈ K

Os elementos de V são chamados vetores, e os elementos de K são chamados escalares.

x0 + (−x0) = (x0 + x0) + (−x0)

donde, somando −0v a ambos os lados desta equação,

0v + (−0v) = (0v + 0v) + (−0v)

x−1 (xv) = x−1 0.

Mas o lado esquerdo desta equação é

x−1 (xv) = x−1 x v

enquanto que por (i) o lado direito é

Prova: Por (iii), se v 6= 0 e x 6= y, então xv 6= yv.

1.8 Exemplo (Espaços das n-uplas de escalares em K). Os espaços

1.3 Bases e Dimensão

é uma combinação linear não trivial quando x 6= 0.

Suponha que xi 6= 0. Então podemos escrever

isto é, vi é combinação linear dos outros elementos de S.

1.18 Exemplo. Bases canônicas de Kn , Mm×n (K) e K [x].

Uma base explı́cita para C k (X; R) ou Lp (X; R) é desconhecida.

gera V . De fato, podemos escrever

w2 = x12 w1 + x22 v2 + . . . + xk2 vk

wk+1 = x1k+1 w1 + . . . + xkk+1 wk

contrariando o fato que S 0 é LI.

Prova. Suponha que v1 , . . . , vk ∈ S e existem escalares x1 , . . . , xk , x tais que

Então x = 0, caso contrário

e como S é LI, segue que x1 = . . . = xk = 0.

1.4 Subespaços Vetoriais

• 0 ∈ W : pois se v ∈ W é qualquer vetor (lembre-se que W 6= ∅), então 0v = 0 ∈ W .

então W1 ∪ W2 não é um subespaço vetorial de V . De fato, tomando

o vetor v = w1 + w2 não está em W1 ∪ W2 , apesar de w1 e w2 estarem.

Como B é LI, se λi 6= µj para todo j, então v = 0 e, analogamente, se µj 6= λi para todo i, então v µj = 0;

se λi = µj para algum par de ı́ndices i, j, então v λi = v µj .

os escalares v 1 , . . . , v n são chamados as coordenadas de v com relação à base B.

os escalares v i , i ∈ I, são chamados as coordenadas de v com relação à base B.

é chamado uma álgebra. A operação é chamada produto de vetores.

1.6.1 A Álgebra de Matrizes

e, quando m = n, simplesmente por

(ii) (Distributividade) Para todas matrizes A, B, C ∈ Mm×n (K) vale

Em particular, Mn (K) é uma álgebra associativa com identidade.

A demonstração fica mais fácil de ver usando a convenção de Einstein: