Apontamentos AL

Instituto Superior Técnico
Departamento de Matemática
APONTAMENTOS DE ÁLGEBRA LINEAR
0. Introdução
Este texto consiste numa transcrição razoavelmente fiel das apresentações feitas nas
aulas teóricas do curso de Álgebra Linear para o mestrado em engenharia Aeroespacial
no primeiro semestre de 2018/2019 no IST. O seu objetivo é proporcionar uma referência
precisa para a matéria coberta nas aulas teóricas e não substituir os livros de texto indicados
na bibliografia na página da cadeira.
A Álgebra Linear é a parte da Matemática que estuda a resolução de equações lineares, ou
mais geralmente, que estuda as funções lineares. Os sistemas lineares já vos são familiares.
Eis um exemplo: (
2x + 3y − z + w = 4
−x + 2z − w = 1
Estamos interessados em saber se um sistema tem solução e, em caso afirmativo, em
descrever as soluções de uma forma conveniente. A resolução do sistema pode ser vista
como uma questão relativa à função linear
f (x, y, z, w) = (2x + 3y − z + w, −x + 2z − w)
De facto a existência de solução é equivalente à afirmação que (4, 1) pertence à imagem
de f e, quando a solução existe, o conjunto das soluções é a pré-imagem f −1 ({(4, 1)}) do
ponto (4, 1) pela função.
A Álgebra Linear está também fortemente ligada à Geometria. Considerando (x, y, z, w)
como coordenadas num espaço euclidiano de dimensão 4 (o espaço-tempo por exemplo),
podemos interpretar o sistema acima como descrevendo a interseção de dois (hiper)planos.
O sistema terá solução se os hiperplanos se intersetam e nesse caso, o conjunto das soluções
do sistema descreve os pontos da interseção.
A Álgebra Linear é ubı́qua na Matemática e nas suas aplicações. Por exemplo, o algo-
ritmo de busca de páginas da Google tem por base uma ideia muito simples de álgebra
linear como iremos ver mais tarde. A Álgebra Linear que iremos estudar é também usada
na compressão de dados e imagens e nas telecomunicações entre muitas outras aplicações.
Por outro lado, a Álgebra Linear é também fundamental na Matemática porque as funções
lineares servem de modelo (incrivelmente bem sucedido) para funções mais gerais. É essa
a ideia do Cálculo, no qual as funções são estudadas recorrendo às suas aproximações lin-
eares (ou derivadas). A Álgebra Linear será assim uma base fundamental para disciplinas
de Matemática que estudarão posteriormente como o Cálculo de várias variáveis ou as
Equações Diferenciais.
1. O método de Gauss
O método de Gauss é um método para resolver sistemas lineares cuja ideia é a simpli-
ficação do sistema através da eliminação sucessiva de variáveis.
Date: December 2, 2019.
1
2 APONTAMENTOS DE ÁLGEBRA LINEAR
Definição 1.1. Um sistema linear de m equações a n incógnitas é uma expressão da forma




 a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2

(1) ..


 .

a x + a x + . . . + a x = b
m1 1 m2 2 mn n m
onde aij , xj , bi para 1 ≤ i ≤ m, 1 ≤ j ≤ n denotam números reais (ou complexos). Os

números aij chamam-se os coeficientes do sistema, os xi são as incógnitas e os bi os termos
independentes. Se os termos independentes são nulos (isto é bi = 0 para todo o i) o sistema
diz-se homogéneo.
Estamos interessados em saber se um sistema admite soluções (isto é, se existem números
x1 , . . . , xn tais que as relações (1) são satisfeitas). Quando isto acontece diz-se que o
sistema é possı́vel, senão é impossı́vel. Quando existem soluções, queremos descrevê-las.
Em particular queremos saber se a solução é única (nesse caso diz-se que o sistema é
determinado) ou não, caso em que o sistema se diz indeterminado.
Observe-se que um sistema homogéneo é sempre possı́vel. Tem pelo menos a solução
xj = 0 para todo o j, que se chama a solução trivial.
Observação 1.2. Toda a teoria que vamos desenvolver durante o próximo par de meses
aplica-se mais geralmente. Os números reais ou complexos podem ser substituı́dos pelos
elementos de qualquer corpo (um conjunto com duas operações - soma e multiplicação
- que são comutativas, associativas, têm elemento neutro, a multiplicação é distributiva
relativamente à soma, todos os elementos têm inverso relativamente à soma e todos os
elementos excepto o elemento neutro da soma têm inverso multiplicativo). Um exemplo
familiar de corpo além dos conjuntos R e C dos números reais e complexos com as suas
operações habituais é o conjunto Q dos números racionais, também com a soma e produto
habituais. Um exemplo menos habitual é o conjunto {0, 1} com a soma e produto definidas
tomando o resto da divisão por 2 da soma e produto usuais.
O método da eliminação de Gauss é o seguinte algoritmo para simplificar um sistema de

equações lineares:
(1) Identificar a primeira variável que ocorre de facto no sistema (isto é, que tem
coeficiente não nulo nalguma das equações do sistema).
(2) Se o coeficiente dessa variável na primeira equação for nulo, trocar a primeira
equação com outra na qual o coeficiente não é nulo
(3) Subtrair um múltiplo conveniente da primeira equação às restantes de forma a
eliminar nelas a variável em questão (isto é tornar o coeficiente dessa variável nulo)
(4) Regressar ao passo (1) considerando apenas o sistema que se obtém esquecendo a
primeira equação, a não ser que o sistema fique reduzido a uma única equação, caso
em que o algoritmo termina.
APONTAMENTOS DE ÁLGEBRA LINEAR 3
Exemplo 1.3. Considere-se o sistema


0x1 + 0x2 + 2x3 − x4 = 5

0x1 + x2 + 0x3 + 3x4 = 1

0x + 2x + x + x = 2
1 2 3 4
A primeira variável que ocorre no sistema é x2 . Uma vez que o coeficiente de x2 na primeira
equação é 0, trocamos a primeira equação com a segunda (também poderı́amos trocar com
a terceira). Obtemos então o sistema

x 2
 + 3x4 = 1
2x3 − x4 = 5

2x + x + x = 2
2 3 4
Subtraı́mos agora à terceira equação o dobro da primeira para eliminar a variável x2 obtendo

x2
 + 3x4 = 1
2x3 − x4 = 5

 x3 − 5x4 = 0
Voltamos agora ao inı́cio mas consideramos apenas as duas últimas equações. A primeira
variável é agora x3 e o seu coeficiente na primeira linha (que é a segunda linha do sistema
inicial) é não nulo, pelo que não é necessário trocar a ordem das equações. Subtraindo
metade da segunda equação à terceira obtemos o sistema

x2
 + 3x4 = 1
(2) 2x3 − x4 = 5
− 92 x4 = − 25


O sistema (2) é fácil de resolver começando pela equação debaixo e substituindo repeti-
damente os resultados obtidos nas equações de cima: da última equação obtemos x4 = 59 e
substituindo na segunda equação obtemos
5 25
2x3 = 5 + ⇔ x3 =
9 9
Finalmente substituindo na primeira equação (em geral precisarı́amos também do valor de
x3 mas neste sistema isso não acontece) obtemos
5 2
x2 = 1 − 3 · =−
9 3
O conjunto das soluções do sistema é portanto
(3) {(x1 , − 32 , 25
9 9
, 5 ) : x1 ∈ R}
Em particular o sistema é possı́vel e indeterminado.
É um desperdı́cio de tempo escrever as variáveis durante a aplicação dos passos do
algoritmo acima. Podemos apenas escrever os coeficientes e termos independentes dos
vários sistemas. O procedimento aplicado no exemplo anterior pode entâo ser abreviado
da seguinte forma:
     
0 0 2 −1 | 5 0 1 0 3 | 1 0 1 0 3 | 1
L1 ↔L2 3 −2L1
 0 1 0 3 | 1  −→  0 0 2 −1 | 5  L−→  0 0 2 −1 | 5 
0 2 1 1 | 2 0 2 1 1 | 2 0 0 1 −5 | 0
 
0 1 0 3 | 1
L3 − 21 L1
(4) −→  0 0 2 −1 | 5 
0 0 0 − 92 | − 52
As tabelas de números que aparecem acima chamam-se matrizes e são objetos fundamentais
na álgebra linear. A linha a tracejado antes da última coluna destina-se a lembrar que
estamos a resolver um sistema não homogéneo e que a última coluna é formada pelos
termos independentes. Quando é claro do contexto a linha a tracejado é por vezes omitida.
Quando o sistema é homogéneo a última coluna (formada só por 0s) é omitida.
Exemplo 1.4. Vamos resolver o sistema

x + 3y + 2z = 0

4y + z = 2

−2x − 2y − 3z = 1
Aplicando o método de Gauss obtemos

     
1 3 2 | 0 1 3 2 | 0 1 3 2 | 0
L3 +2L1 3 −L2
 0 4 1 | 2  −→  0 4 1 | 2  L−→  0 4 1 | 2 
−2 −2 −3 | 1 0 4 1 | 1 0 0 0 | −1
A última equação do sistema descrito pela matriz em que termina o método de Gauss é
0x + 0y + 0z = −1, que é impossı́vel. Conclui-se que o sistema inicial é impossı́vel.
Definição 1.5. Sejam m, n números naturais. Uma matriz m × n de números reais ou
complexos é uma função {1, . . . , m} × {1, . . . , n} → R (ou C). É habitual representar uma
tal função por uma tabela de números
a11 a12 · · · a1n
 
 a21 a22 · · · a2n 
 .
 .. ..  onde aij é o valor da função em (i, j).
. 
am1 am2 · · · amn
m é o número de linhas da matriz, enquanto que n é o número de colunas. Diz-se que uma
matriz está em escada de linhas se todas as linhas nulas estão em baixo e se a primeira
entrada não nula de cada linha, que se denomina por pivot, está para a esquerda do pivot
da linha abaixo. Isto é, [aij ]1≤i≤m,1≤j≤n está em escada de linhas se quando
aij = 0 para j ≤ k (sendo 0 ≤ k ≤ n) ⇒ ai+1 j = 0 para j ≤ k + 1.
Note-se que, em termos das matrizes associadas aos sistemas, o que o método de Gauss
faz é colocar a matriz do sistema em escada de linhas.
Após a aplicação do método de Gauss temos ainda que resolver iterativamente as equações
do sistema, começando pela que está mais abaixo. Este processo pode ser feito de forma
muito mais eficiente, efetuando operações semelhantes às do método de Gauss. Este novo
algoritmo, uma continuação do método de Gauss, chama-se Método de Gauss-Jordan e
consiste em, dada uma matriz em escada de linhas,
(1) Multiplicar cada linha não nula pelo inverso do pivot de forma a fazer o pivot igual
a 1.
(2) Subtrair múltiplos apropriados das linhas acima de cada linha com pivot até que
todas as entradas acima dos pivots fiquem nulas.
Vamos aplicar este algoritmo à matriz em escada de linhas (4) que resultou do Exemplo
1.3.
Exemplo 1.6.
     2

0 1 0 3 | 1 1
L
0 1 0 3 | 1 L −3L
0 1 0 0 | − 3
 0 0 2 −1 | 5  −→ 2 2
 0 0 1 − 1 | 5  1−→1 3  0 0 1 0 | 25 
2
− 9 L3 2 2 L2 + 2 L1 9
0 0 0 − 29 | − 52 0 0 0 1 | 59 0 0 0 1 | 59
Recuperamos assim o conjunto das soluções (3) obtido acima.
Quando há muitas equações, o algoritmo de Gauss-Jordan é muito mais eficiente que o
processo de substituições sucessivas que usámos antes.
Definição 1.7. Diz-se que uma matriz está em escada de linhas reduzida se está em escada
de linhas, os pivots são todos iguais a 1 e as entradas acima dos pivots são todas 0.
O algoritmo de Gauss-Jordan coloca portanto uma matriz em escada de linhas numa
matriz em escada de linhas reduzida.
Exemplo 1.8. Vamos resolver o sistema homogéneo

y + 4w = 0

x − 2y + 3z = 0

2x − 6y + 16w = 0
Recorde-se que neste caso não incluı́mos a coluna de 0s correspondente aos termos depen-
dentes. Obtemos assim
     
0 1 0 4 1 −2 3 0 1 −2 3 0
1 ↔L2 3 −2L1
 1 −2 3 0  L−→  0 1 0 4  L−→  0 1 0 4 
2 −6 0 16 2 −6 0 16 0 −2 −6 16
     
1 −2 3 0 1
− 6 L3
1 −2 3 0 1 0 3 8
L3 +2L2
−→  0 1 0 4  −→  0 1 0 4  L−→ 1 +2L2
 0 1 0 4 
0 0 −6 24 0 0 1 −4 0 0 1 −4
 
1 0 0 20
L1 −3L3
−→  0 1 0 4 
0 0 1 −4
Obtemos assim a seguinte solução para o sistema:

x = −20w

y = −4w com w ∈ R qualquer.

z = 4w
Exemplo 1.9. Vamos resolver o sistema linear homogéneo


x − y + 2z + w − v = 0

2x − 2y + z − w + 2v = 0

x − y + 5z + 4w − 5v = 0
Aplicando o método de Gauss-Jordan temos

     
1 −1 2 1 −1 1 −1 2 1 −1 1 −1 2 1 −1
L2 −2L1
 2 −2 1 −1 2  −→  0 0 −3 −3 4  L−→
3 +L2
 0 0 −3 −3 4 
L3 −L1
1 −1 5 4 −5 0 0 3 3 −4 0 0 0 0 0
   
1
− 3 L2
1 −1 2 1 −1 1 −1 0 −1 35
4  L1 −2L2 
−→ 0 0 1 1 − 3
 −→ 0 0 1 1 − 43 
0 0 0 0 0 0 0 0 0 0
Ou seja, o conjunto solução deste sistema é
{(y + w − 53 v, y, −w + 43 v, w, v) : y, w, v ∈ R}
Os dois exemplos acima ilustram a seguinte observação relativa à solução de sistemas
homogéneos por este método:
• As colunas com pivots correspondem às variáveis dependentes do sistema que são
expressas em função das restantes.
• As colunas sem pivots correspondem às variáveis livres cujo valor pode ser atribuı́do
arbitrariamente numa solução.
Num sistema não homogéneo, o sistema é impossı́vel se houver um pivot na última coluna
(como acontece no Exemplo 1.4). Quando o sistema é possı́vel, as colunas com pivot
correspondem às variáveis dependentes e as restantes, com excepção da última, às variáveis
livres.
Definição 1.10. A caracterı́stica de uma matriz1 A é o número de pivots que se obtém ao
aplicar o método de Gauss (ou Gauss-Jordan).
Alternativamente a caracterı́stica é o número de linhas não nulas na matriz que resulta
da aplicação do método de Gauss (ou Gauss-Jordan). Ela dá-nos o número mı́nimo de
equações necessárias para descrever a solução do sistema. Note-se que não é imediatamente
1Em inglês “rank of a matrix”.
claro que a definição de caracterı́stica faça sentido pois há alguma indeterminação no
método de Gauss relativa à escolha das trocas de linha. Podia acontecer que escolhas
diferentes durante a aplicação do algoritmo conduzissem a matrizes com números diferentes
de pivots no final. Vamos ver que isso não pode acontecer, mas primeiro comecemos por
analisar exatamente a razão pela qual os métodos de Gauss e Gauss-Jordan produzem
sistemas equivalentes ao inicial.
Suponhamos que temos um sistema linear



 a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2

(5) ..


 .

a x + a x + . . . + a x = b
m1 1 m2 2 mn n m
Se (x1 , . . . , xn ) é uma solução do sistema, então para qualquer escolha de c1 , . . . , cm ∈ R

(ou C consoante os escalares que estejamos a considerar) a seguinte relação será verificada
(6) c1 (a11 x1 + . . . + a1n xn ) + . . . + cm (am1 x1 + am2 x2 + . . . + amn xn ) = c1 b1 + . . . + cm bm
A expressão (6) diz-se uma combinação linear das equações do (5). Obtém-se multiplicando
a i-ésima equação pela constante ci e somando as equações resultantes. Concretizando, a
combinação linear com coeficientes 2 e −3 das equações
x+y =3 2x − 5y = 2
é a equação
2(x + y) − 3(2x − 5y) = 2 · 3 − 3 · 2 ⇔ −4x + 17y = 0
Observação 1.11. O conceito de combinação linear é talvez o conceito central da Álgebra

Linear. Informalmente, uma combinação linear de coisas é uma expressão que se obtém
multiplicando cada coisa por um escalar e somando tudo. Por exemplo, admitindo que se
pode multiplicar mamı́feros por escalar e somá-los, 2morcego-3castor é uma combinação
linear de mamı́feros.
Quando executamos um passo do algoritmo de Gauss ou Gauss-Jordan, as equações
do novo sistema são (por definição do algoritmo) combinações lineares das do sistema
anterior. Portanto uma solução do sistema antes da aplicação do passo é ainda uma
solução do sistema seguinte. Na realidade, as combinações lineares envolvidas são muito
simples. Chamando S ao sistema inicial e S 0 ao sistema obtido após aplicação de um passo
do algoritmo e usando a notação Li (respetivamente L0i ) para a i-ésima equaçao do sistema
S (respetivamente S 0 ), temos após um passo do método
L0i = Lj , L0i = αLi com α 6= 0, ou L0i = Li − αLj com j 6= i
e, no último caso, as linhas distintas da i-ésima permanecem inalteradas e, em particular,
L0j = Lj .
Mas as expressões acima permitem também escrever as linhas do sistema S como com-
binações lineares das linhas de S 0 :
1 0
Lj = L0i , Li = L com α 6= 0, ou Li = L0i + αL0j com j 6= i
α i
(onde no último caso usámos o facto de Lj e L0j serem iguais). Conclui-se que as soluções
do sistema S 0 são também soluções do sistema S e portanto que os sistemas S e S 0 têm
exatamente as mesmas soluções. Uma vez que isto acontece durante todas os passos do
método conclui-se que todos os sistemas que ocorrem ao longo da aplicação dos métodos de
Gauss e Gauss-Jordan são equivalentes, isto é, todos têm exatamente o mesmo conjunto
de soluções.
Para terminar esta nossa discussão inicial dos sistemas lineares vamos agora provar que a
matriz em escada de linhas reduzida no final do método de Gauss-Jordan é independente de
quaisquer escolhas, o que mostra que a Definição 1.10 faz sentido (diz-se que a caracterı́stica
está bem definida).
A demonstração utilizará um género de argumento que se diz por redução ao absurdo
e que se baseia no seguinte facto simples da lógica: Se uma afirmação P implica outra
afirmação Q e Q é falsa, então P é necessariamente falsa. Em sı́mbolos:
((P ⇒ Q) ∧ ¬Q) ⇒ ¬P
Este facto permite-nos provar a validade de uma afirnação A se conseguirmos deduzir uma
falsidade a partir da sua negação ¬A. Conclui-se então que a afirmação ¬A é falsa, ou seja
que A é verdadeira.
Teorema 1.12. Sejam m, n números naturais e A uma matriz m × n de números reais ou
complexos. Se B e C são matrizes em escada de linhas reduzidas obtidas a partir de A por
aplicação dos métodos de Gauss e Gauss-Jordan, então B = C.
Dem. A demonstração é por indução no número n das colunas de A. Para a base da
indução precisamos de mostrar que se A é uma matriz com uma única coluna o resultado é
verdadeiro. Se A tem apenas uma coluna, ou é nula e então B = C = 0 (porque o algoritmo
termina imediatamente) ou não é nula e então o algoritmo termina necessariamente com a
matriz
1
 
 0 
 . 
 .. 
0
Em qualquer caso B = C.
Para o passo da indução vamos admitir que a afirmação do enunciado é válida se a matriz
A tem n colunas e queremos concluir que a afirmação é válida para matrizes com n + 1
colunas. Vamos admitir por absurdo que isto não é verdade. Então existe uma matriz A
com n + 1 colunas e duas maneiras de aplicar o algoritmo de tal forma que no final obtemos
matrizes B 6= C.
Quando aplicamos os algoritmos a uma matriz A estamos também a aplicá-los às matrizes
que se obtêm de A suprimindo a última coluna (ou qualquer número de colunas à direita).
Em particular, escrevendo A≤n para a matriz que se obtém de A suprimindo a última
coluna2, pela hipótese de indução (uma vez que A≤n tem n colunas) teremos B≤n = C≤n .
Como estamos a admitir que B 6= C estas matrizes terão que diferir em pelo menos uma
das entradas na última coluna. Seja então i tal que bi n+1 6= ci n+1 . Recorde-se que os
sistemas homogéneos determinados por A, B, e C são equivalentes. Subtraindo as i-ésimas
equações dos sistemas correspondentes a B e C obtemos a equação
(bi n+1 − ci n+1 )xn+1 =0
(uma vez que bij = cij para j ≤ n). Como o coeficiente de xn+1 é não nulo, isto significa
que todas as soluções do sistema determinado por A (ou B ou C) satisfazem xn+1 = 0.
Então xn+1 não é uma variável livre no sistema de B nem no sistema de C, e portanto
tanto B como C têm um pivot na coluna n + 1.
Mas observe-se agora que numa matriz em escada de linhas reduzida, um pivot na última
coluna ocorre exatamente à direita da primeira linha de 0s na matriz obtida ao suprimir
a última coluna. Ou seja, sabendo que B e C têm um pivot na última coluna, a posição
do pivot é determinada por B≤n = C≤n e portanto é igual para B e C. Ora no final
do método de Gauss-Jordan todas as entradas da última coluna são 0 excepto a entrada
correspondente ao pivot, que é 1. Conclui-se então que as últimas colunas de B e de C são
iguais e portanto B = C. Isto contradiz a nossa hipótese que B 6= C e portanto mostra que
é impossı́vel obter matrizes distintas ao aplicar o algoritmo de Gauss-Jordan a uma matriz
com (n + 1) colunas. Isto conclui o passo de indução e portanto a demonstração.
Observação 1.13. A demonstração anterior mostra mais geralmente que se A, B e C são

matrizes de sistemas tais que qualquer equação pode ser escrita como combinação linear
das equações de cada um dos três sistemas, e B, C estão em escada de linhas reduzidas,
então B = C. Em particular, se inserirmos trocas de linhas arbitrárias durante a aplicação
do método de Gauss (mesmo que isso não seja requerido pelo algoritmo) isso não afectará
o resultado do algoritmo de Gauss-Jordan.
2. O produto de matrizes
Vimos acima que qualquer combinação linear (6) das equações de um sistema linear (5)
é satisfeita por uma solução do sistema. Mais geralmente, começando com um sistema
linear (5), podemos considerar um novo sistema cujas equações são combinações lineares
das equações do sistema inicial. No caso homogéneo (ou seja com bi = 0) um tal sistema
2Esta notação ad hoc não voltará a ser usada depois desta demonstração.
com k equações tem o aspecto seguinte




 c11 (a11 x1 + a21 x2 + . . . + a1n xn ) + . . . + c1m (am1 x1 + am2 x2 + . . . + amn xn ) = 0
c21 (a11 x1 + a21 x2 + . . . + a1n xn ) + . . . + c2m (am1 x1 + am2 x2 + . . . + amn xn ) = 0

(7) ..


 .

c (a x + a x + . . . + a x ) + . . . + c (a x + a x + . . . + a x ) = 0
k1 11 1 21 2 1n n km m1 1 m2 2 mn n
onde ci1 , . . . , cim sáo os coeficientes da combinação linear que produz a i-ésima equação do
novo sistema. Estes escalares podem ser dispostos numa matriz k × m.
c11 c12 · · · c1m
 
 c21 c22 · · · c2m 
 . .. 
 .. . 
ck1 ck2 · · · ckm
Identificando o sistema inicial com a matriz [aij ]1≤i≤m,1≤j≤n dos seus coeficientes, podemos
pensar neste processo de combinação linear de equações como uma operação que partindo
de duas matrizes, C = [cpq ] do tipo k × m e A = [aij ] de tipo m × n produz uma nova
matriz que tem por entradas os coeficientes das equações do sistema (7). Esta nova matriz
é de tipo k × n e tem como entrada ij (correspondente ao coeficiente de xj na i-ésima
equação de (7))
m
X
(8) ci1 a1j + ci2 a2j + . . . + cim amj = cil alj
l=1
Definição 2.1. Sejam k, m, n números naturais, C uma matriz k × m e A uma matriz

m × n de números reais (ou complexos). O produto da matriz C pela matriz A é a matriz
k × n, denotada por CA, cuja entrada ij é dada pela expressão (8).
Note-se que a expressão (8) não é mais do que o produto escalar da linha i da matriz C
com a coluna j da matriz A.
..  . . . a1j ...
 .  
.. .
 . . . a2j ... 
c c · · · c

 i1 i2 im  
 .. 
.. .. . 
. . . . . akj ...
Exemplo 2.2.  
1 2 0 0
2 0 3  −1 1 −1 3  =
1 −1 0
0 3 0 1

2 · 1 + 0 · (−1) + 3 · 0 2·2+0·1+3·3 2 · 0 + 0 · (−1) + 3 · 0 2·0+0·3+3·1
=
1 · 1 + (−1) · (−1) + 0 · 0 1 · 2 + (−1) · 1 + 0 · 3 1 · 0 + (−1) · (−1) + 0 · 0 1 · 0 − 1 · 3 + 0 · 1

2 13 0 3
=
2 1 1 −3
A fórmula (8) para o produto de matrizes admite várias interpretações que facilitam
muitas vezes o cálculo e que são já patentes no exemplo anterior:
• A i-ésima linha do produto CA é a combinação linear das linhas de A cujos co-
eficientes são as entradas da i-ésima linha de C (foi esta aliás a maneira como
chegámos à fórmula para o produto de matrizes). Concretamente, no exemplo
acima, a primeira linha do produto é igual a

2 · 1 2 0 0 + 0 · −1 1 −1 3 + 3 · 0 3 0 1
• A j-ésima coluna do produto CA é a combinação linear das colunas de C cujos
coeficientes são as entradas da j-ésima coluna de A. No exemplo acima, a primeira
coluna do produto é igual a

2 0 3
1· −1· +0·
1 −1 0
Em muitos exemplos (como no Exemplo 2.2 acima) o produto calcula-se muito mais rap-
idamente fazendo as contas por linhas ou colunas do que aplicando a fórmula (8) entrada
a entrada.
Usando o produto de matrizes, podemos escrever um sistema (5) usando matrizes para os
coeficientes, incógnitas e termos independentes. A expressão (5) é equivalente à igualdade
de matrizes
 x1
 
a11 a12 · · · a1n b1
  
x
 ... ..   2  =  .. 
 
(9) .  ...  .
am1 am2 · · · amn bm
xn
que se pode abreviar
AX = B
Uma vez que entendamos as propriedades do produto de matrizes, poderemos manipular
sistemas e resolvê-los de forma análoga à que é já familiar do estudo anterior da resolução
de equações numéricas.
Os métodos de Gauss e Gauss-Jordan podem também ser descritos em termos do produto
de matrizes. Por exemplo, tendo em conta a descrição do produto de matrizes em termos
de combinação linear de linhas, a aplicação da operação L2 + 3L1 ao sistema (9) consiste
na multiplicação em ambos os lados da igualdade pela matriz do tipo m × m
 
1 0 ··· ··· 0
 3 1 0 ··· 0 
...
 
 0 0 1 0 
 
 . . . .. 
 .. . . 
0 0 ··· 0 1
De forma semelhante, a operação −2L2 corresponde à multiplicação de (9) pela matriz

m×m
 
1 0 ··· ··· 0
 0 −2 0 · · · 0 
..
 
 0 0

1 . 0 
 . . .
 .. . . .. 

0 0 ··· 0 1
Definição 2.3. Seja n um número natural. A matriz identidade do tipo n × n é a matriz

In que tem como entrada ij
(
1 se i = j
δij =
0 se i 6= j
ou seja
 
1 0 ··· ··· 0
 0 1 0 ··· 0 
...
 
In =  0 0 1 0
 

 .
 .. . . . ...


0 0 ··· 0 1
Teorema 2.4 (Propriedades do produto de matrizes). Sejam k, m, n, p números naturais

e A, B, C matrizes do tipo k × m, m × n e n × p respetivamente.
(i) Propriedade associativa do produto: A(BC) = (AB)C.
(ii) Elemento neutro para o produto: Ik A = A e AIm = A.
Dem. (i) Temos a verificar que para cada i, j com 1 ≤ i ≤ k e 1 ≤ j ≤ p, a entrada

ij das matrizes A(BC) e (AB)C são iguais. Escrevendo (AB)ij para a entrada ij
do produto das matrizes A e B e aplicando (duas vezes) a fórmula (8) que define o
produto de matrizes obtemos
m
X
(A(BC))ij = aix (BC)xj
x=1
m n
!
X X
= aix bxy cyj
x=1 y=1
Xm Xn
= aix bxy cyj
x=1 y=1
onde na última igualdade aplicámos as propriedades distributiva da soma em relação

ao produto (de números) e também as propriedade associativas da soma e multi-
plicação (de números). De forma inteiramente análoga temos
Xn
((AB)C))ij = (AB)iz czj
z=1
n m
!
X X
= aiw bwz czj
z=1 w=1
n
XX m
= aiw bwz cwj
z=1 w=1
As expressões obtidas para (A(BC))ij e ((AB)C)ij são idênticas3 (pelas propriedades

associativa e comutativa da soma de números) o que conclui a demonstração da
igualdade A(BC) = (AB)C.
(ii) A demonstração é análoga (mas mais fácil). Exercı́cio.

Na proposição anterior vimos propriedades importantes que a multiplicação de matrizes
partilha com a multiplicação de números, (embora seja importante notar que a complex-
idade da multiplicação de matrizes é superior: há matrizes de vários tipos e só quando o
número de linhas do fator da esquerda é igual ao número de colunas do fator da direita se
pode efetuar a multiplicação). Há também diferenças importantes:
Exemplo 2.5 (A multiplicação de matrizes não é comutativa). Note-se que os produtos
AB e BA só poderão ser matrizes do mesmo tipo se A e B forem matrizes quadradas com
igual número de linhas. Se escolhermos duas destas matrizes ao acaso (com mais de uma
linha!), a probabilidade de os produtos serem diferentes é 100%. Por exemplo,

1 2 1 1 −3 3
=
3 −1 −2 1 5 2

1 1 1 2 4 1
=
−2 1 3 −1 1 −5
Uma das propriedades da multiplicação de números que é muito útil é a chamada lei do
corte:
Se a 6= 0 e ab = ac então b = c.
Definição 2.6. A matriz m × n nula é a matriz que tem todas as entradas iguais a 0. É
denotada por 0 (deixando implı́citas as dimensões).
É imediato da definição do produto que (sempre que os produtos façam sentido) temos
A·0=0 0·A=0
3Os ı́ndices dos somatórios são variáveis mudas. Obtém-se uma expressão da outra substituindo o ı́ndice
x por w e y por z.
Exemplo 2.7 (A lei do corte não é válida para o produto de matrizes). Seja A a matriz

2 −1
. Entâo
4 −2

2 def 2 −1 2 −1 0 0
A = AA = =
4 −2 4 −2 0 0
portanto, apesar de A 6= 0 temos
AA = A · 0.
Definição 2.8. Uma matriz n × n, A diz-se invertı́vel se existe uma matriz B (necessari-
amente também n × n) tal que
AB = BA = In
Uma tal matriz B diz-se uma inversa de A.
Proposição 2.9. Seja A uma matriz n×n invertı́vel, B, C matrizes n×m e E, F matrizes
m × n. Então
AC = AD ⇒ C = D e EA = F A ⇒ E = F
Dem. Provamos apenas a primeira implicação deixando a segunda como exercı́cio. Seja B
uma inversa de A. Então
AC = AD ⇒ B(AC) = B(AD) ⇔ (BA)C = (BA)D ⇔ In C = In D ⇔ C = D

Vamos também necessitar de outras operações com matrizes que têm uma natureza
muito mais elementar do que o produto.
Definição 2.10. Sejam A, B matrizes m × n. A soma das matrizes A e B é a matriz do
mesmo tipo A + B que tem como entrada ij
(A + B)ij = aij + bij
O produto de uma matriz A m × n pelo escalar λ ∈ R (ou C) é a matriz λA também do
tipo m × n cuja entrada ij é
(λA)ij = λaij
Por exemplo

2 −1 2 1 4 2 2 + 1 −1 + 4 2 + 2 3 3 4
+ = =
0 −3 0 2 3 −1 0 + 2 −3 + 3 0 − 1 2 0 −1
e    √ √ 
√ 1 1 √2 √2
2  −1 2  =  −√ 2 2 2 
4 0 4 2 0
Vejamos algumas propriedades fundamentais destas operações cujas demonstrações são
imediatas e ficam como exercı́cio.
Proposição 2.11 (Propriedades da soma de matrizes). Sejam A, B, C matrizes m × n.

Então
(i) (Associatividade) A + (B + C) = (A + B) + C
(ii) (Comutatividade) A + B = B + A
(iii) (Existência de elemento neutro) A + 0 = A
(iv) (Existência de inversos/simétricos) Existe D tal que A + D = 0
É fácil verificar (exercı́cio) que o simétrico de uma matriz é único. Usa-se a notação −A
para o simétrico de uma matriz e claramente a componente ij da matriz −A é dada por
−aij .
Proposição 2.12 (Propriedades do produto por escalar). Sejam A, B matrizes m × n e
λ, µ escalares reais (ou complexos). Então
(i) 1 · A = A
(ii) λ(µA) = (λµ)A
(iii) λ(A + B) = λA + λB
(iv) (λ + µ)A = λA + µA
Outras propriedades do produto por escalar que são muitas vezes utilizadas são as
seguintes
0 · A = 0, (−1) · A = −A
Estas propriedades são de verificação imediata a partir da definição do produto por escalar
mas podem também ser deduzidas das propriedades indicadas nas Proposições acima (sem
usar a definição). Fica como exercı́cio a realização dessas deduções.
Vejamos agora algumas relações entre a soma e o produto por escalar com o produto de
matrizes.
Proposição 2.13 (Distributividade). Sejam A uma matrix m × n, B e C matrizes n × p
e D uma matriz p × q. Então
A(B + C) = AB + AC (B + C)D = BD + CD
Dem. Verificamos apenas a primeira igualdade dado que a demonstração da segunda é
inteiramente análoga. Temos que ver que para cada i, j com 1 ≤ i ≤ m e 1 ≤ j ≤ p, as
entradas ij das matrizes A(B + C) e AB + AC são iguais. De acordo com (8) a entrada
ij de A(B + C) é dada pela expressão
n
X n
X
aik (B + C)kj = aik (bkj + ckj )
k=1 k=1
Xn
= aik bkj + aik ckj
k=1
= (AB)ij + (AC)ij
o que mostra a igualdade pretendida.
Podemos usar as propriedades acima para desenvolver e simplificar expressões como

estamos habituados a fazer com os números mas devido às diferenças indicadas acima, isto
requer algum cuidado. Por exemplo, se A e B são matrizes n × n temos
(A + B)2 = (A + B)(A + B) = A(A + B) + B(A + B) = A2 + AB + BA + B 2
Esta expressão é (pela lei do corte para a soma de matrizes) igual à expressão habitual
A2 + 2AB + B 2
se e só se for satisfeita a seguinte igualdade pelas matrizes A, B
AB = BA
o que, como já indicámos acima, quase nunca se verifica.
Definição 2.14. Sejam A, B matrizes n × n. Diz-se que A e B comutam se AB = BA.
É imediato verificar que a matriz λIn comuta com qualquer outra matriz n × n, uma
vez que, pela interpretação do produto de matrizes em termos de combinações lineares de
linhas e colunas, multiplicar A à esquerda por λIn consiste em multiplicar cada linha de
A por λ, enquanto que multiplicar por λIn à direita consiste em multiplicar por λ cada
coluna de A. Portanto
(λIn )A = λA = A(λIn )
Um dos exercı́cios da ficha para as aulas práticas da próxima semana pede-vos que veri-
fiquem que estas matrizes - os múltiplos escalares da matriz identidade - são na realidade
as únicas matrizes que têm esta propriedade de comutar com todas as outras. A igualdade
acima é um caso particular da seguinte propriedade que relaciona o produto de matrizes
com o produto por escalar. A demonstração (muito fácil) é deixada como exercı́cio.
Proposição 2.15. Sejam A uma matriz m × n, B uma matriz n × p e λ um escalar real
(ou complexo). Então
λ(AB) = A(λB) = (λA)B
Exemplo 2.16. Seja A uma matriz n × n. Então (uma vez que 3In comuta com A)
(A + 3In )2 = A2 + 2(3In )A + (3In )2 = A2 + 6A + 9In
Já vimos que a invertibilidade de uma matriz é uma propriedade útil, permitindo-nos
por exemplo a aplicação da lei do corte.
Proposição 2.17 (Unicidade da inversa). Seja A uma matriz n×n. Se B e C são inversas
de A então B = C.
Dem. Temos
B = BIn = B(AC) = (BA)C = In C = C

A partir de agora escrevemos
A−1 para a inversa da matriz A.
Notemos as seguintes consequências da unicidade da inversa.
Proposição 2.18. Sejam A, B matrizes n × n invertı́veis. Então

(i) AB é invertı́vel e (AB)−1 = B −1 A−1
(ii) A−1 é invertı́vel e (A−1 )−1 = A.
Dem. Mostramos apenas a primeira afirmação deixando a segunda como exercı́cio. Uma
vez que a inversa é única, tudo o que é necessário fazer é verificar que as relações na
Definição 2.8 são satisfeitas:
(B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 In B = B −1 B = In
e, analogamente,
(AB)(B −1 A−1 ) = A(BB −1 )A−1 = AIn A−1 = AA−1 = In
Põe-se agora a questão de como saber se uma matriz é invertı́vel e nesse caso calcular
a matriz inversa. Na realidade já aprendemos a calcular a inversa! Se B é a inversa de A
então
AB = In
Tendo em conta a interpretação do produto AB como um cálculo de combinações lineares
de colunas de A, isto diz-nos que as entradas da i-ésima coluna de A são os coeficientes da
combinação linear das colunas de A que produz a i-ésima coluna da matriz identidade. Se
denotarmos a i-ésima coluna de B por Xi , isto diz-nos que a seguinte relação é satisfeita
 
0
 .. 
 . 
 0 
 
(10) AXi =  1 
 
 0 
 
 . 
 .. 
0
(onde a entrada não nula da matriz à direita está na i-ésima linha). Assim podemos calcular
a i-ésima coluna da inversa resolvendo o sistema linear (10) para o que podemos usar os
métodos de Gauss e Gauss-Jordan. Para calcular a inversa temos que resolver n sistemas
lineares mas não há qualquer razão para o fazer separadamente. Como os coeficientes do
sistema são os mesmos para todos os sistemas podemos resolver todos ao mesmo tempo:
 
1 0 2
Exemplo 2.19. Vamos calcular A−1 para a matriz A =  0 3 0 
4 0 5
 
1
Aplicamos o método de Gauss-Jordan aos sistemas com termos independentes  0 ,
0
   
0 0
 1  e  0  simultaneamente:
0 1
     
1 0 2 | 1 0 0 1 0 2 | 1 0 0 1
L
1 0 2 | 1 0 0
3 −4L1
 0 3 0 | 0 1 0  L−→  0 3 0 | 0 1 0  −→ 3 2
 0 1 0 | 0 1 0 
− 13 L3 3
4 0 5 | 0 0 1 0 0 −3 | −4 0 1 0 0 1 | 43 0 − 13
 
1 0 0 | − 53 0 32
L1 −2L3
−→  0 1 0 | 0 13 0 
0 0 1 | 43 0 − 13
As colunas da matriz à direita são as soluções de cada um dos sistemas e portanto as colu-
nas da matriz inversa. Assim, se a matriz A for invertı́vel então teremos necessariamente
 5 
− 3 0 23
A−1 =  0 13 0 
4
3
0 − 13
 
1 3 1
Exemplo 2.20. Vamos calcular A−1 para a matriz A =  0 −1 0 
2 0 1
Temos    
1 3 1 | 1 0 0 1 3 1 | 1 0 0
3 −2L1
 0 −1 0 | 0 1 0  L−→  0 −1 0 | 0 1 0 
2 0 1 | 0 0 1 0 −6 −1 | −2 0 1
   
1 3 1 | 1 0 0 1 3 1 | 1 0 0
L3 −6L2 −L2
−→  0 −1 0 | 0 1 0  −→  0 1 0 | 0 −1 0 
−L3
0 0 −1 | −2 −6 1 0 0 1 | 2 6 −1
   
1 3 0 | −1 −6 1 1 0 0 | −1 −3 1
L1 −L3 L1 −3L2
−→  0 1 0 | 0 −1 0  −→  0 1 0 | 0 −1 0 
0 0 1 | 2 6 −1 0 0 1 | 2 6 −1
Assim, se a matriz A for invertı́vel então teremos necessariamente
 
−1 −3 1
A−1 =  0 −1 0 
2 6 −1
Resta perceber porque é que a matriz B calculada nos exemplos anteriores é de facto
uma inversa de A. A maneira como foi determinada torna claro que AB = In , mas para
que B seja a inversa é ainda necessário que BA = In . Isto está longe de ser óbvio (embora
seja fácil de verificar nos exemplos acima ou em qualquer exemplo concreto).
Antes de explicar a razão pela qual o método anterior pode ser sempre usado para
achar a inversa (ou ver que uma matriz não é invertı́vel) vamos primeiro responder à
seguinte pergunta natural: Porque não achar a inversa por linhas resolvendo o sistema
determinado pela equação BA = In linha a linha? De facto podemos fazê-lo, mas a matriz
dos coeficientes do sistema não será A, e dado que o método de Gauss-Jordan (tal como
nós o apresentámos) se aplica imediatamente apenas à solução de sistemas Ax = b com x
e b matrizes coluna, é mais prático fazer as contas como fizemos acima.
Esta questão aponta no entanto para um aspeto básico do cálculo matricial que diz
respeito à simetria entre linhas e colunas. A atribuição do primeiro ı́ndice às linhas e do
segundo às colunas é claramente apenas uma convenção pelo que é natural considerar a
seguinte simetria das matrizes.
Definição 2.21. Seja A uma matriz m × n. A matriz transposta de A é a matriz AT , do
tipo n × m cuja entrada ij é
(AT )ij = aji
Por exemplo
 
T 1 0 T
1 −1 2 1 2 1 3
=  −1 3  e =
0 3 2 3 4 2 4
2 2
Proposição 2.22 (Propriedades da transposição). (i) (AT )T = A
(ii) (αA)T = αAT
(iii) (A + B)T = AT + B T
(iv) (AB)T = B T AT .
Dem. As primeiras três propriedades são muito fáceis de demonstrar e ficam como exercı́cio.
Quanto à última, suponhamos que A é uma matriz m × n e B é uma matriz n × p, de
forma a que (AB)T é uma matriz p × m. Dados i, j com 1 ≤ i ≤ p e 1 ≤ j ≤ m temos
então que a entrada ij da matriz (AB)T é
n
X Xn Xn
T T T
(B T )ik (AT )kj = (B T AT )ij

(AB) ij = (AB)ji = ajk bki = (A )kj (B )ik =
k=1 k=1 k=1
conforme querı́amos demonstrar.
Usando esta simetria e a propriedade (iv) acima, é imediato verificar que a solução do
sistema para uma linha da matriz inversa mencionado anteriormente não é mais do que a
solução do sistema
AT x = b
com b a coluna correspondente da matriz identidade. Isto sugere uma relação entre a
transposição e a inversão... Qual?
Justifiquemos então finalmente o nosso método de cálculo de inversas:
Teorema 2.23. Seja A uma matriz n × n de números reais ou complexos. As seguintes
afirmações são equivalentes:
(i) A é invertı́vel
(ii) Para cada matriz n × 1, B, o sistema AX = B tem solução e esta é única.
(iii) A tem caracterı́stica n
Dem. Vamos ver que (i)⇒(ii)⇒(iii)⇒(i).
(i)⇒(ii): Multiplicando o sistema dos dois lados por A−1 temos
A−1 AX = A−1 B ⇒ In X = A−1 B ⇒ X = A−1 B
Logo se a solução existe, ela é única e é dada por X = A−1 B. Mas é fácil verificar
que A−1 B é de facto uma solução
A(A−1 B) = In B = B
o que conclui a prova desta implicação
(ii)⇒(iii): Esta implicação é equivalente à implicação ¬(iii) ⇒ ¬(ii) que passamos a demon-
strar. Se a caracterı́stica de A não é igual a n, então no final do método de Gauss-
Jordan, alguma das colunas não tem pivot. A variável correspondente é então livre
na solução do sistema homogéneo AX = 0, que tem portanto infinitas soluções.
Conclui-se que a solução do sistema AX = 0 não é única e portanto a afirmação
(ii) é falsa.
(iii)⇒(i): Se A tem caracterı́stica n, então aplicando o método de Gauss-Jordan a matriz A
é transformada na matriz In (uma vez que esta é a única matriz n × n em escada
de linhas reduzida com caracterı́stica n). Mas, como já observámos, cada passo
do método de Gauss-Jordan consiste na multiplicação à esquerda por uma matriz.
Nomeadamente:
• A operação Li ↔ Lj , com i 6= j corresponde à multiplicação à esquerda pela
matriz  
1
..
.
 
 
0 1
 
 

Sij =  . ..


 

 1 0 

 . .

 . 
1
.
em que os . . indicam 1s, todas as entradas não indicadas são 0 e os 0s na
diagonal ocorrem nas linhas i e j.
• A operação αLi com α 6= 0 corresponde à multiplicação pela matriz
 
1
..

 . 

Di,α  α
 

 .. 
 . 
1
com todas as entradas fora da diagonal 0 e todas as entradas na diagonal 1

exceto a i-ésima que é α.
• A operação Li + αLj com i 6= j e α 6= 0 corresponde à multiplicação pela
matriz  
1
...
α
 
 
In + αEij = 
 ... 

 
 . .

 . 
1
em que todas as entradas da diagonal são 1 e todas as entradas fora da diagonal
são 0 exceto a entrada ij, que é igual a α. O esquema acima corresponde ao
caso em que i < j e portanto à fase final do método de Gauss-Jordan. A fase
inicial do método de Gauss consiste na multiplicação por estas matrizes com
i > j, caso em que a entrada não nula fora da diagonal está abaixo da diagonal.
Em termos do produto de matrizes, a observação que o método de Gauss-Jordan
termina na matriz In expressa a igualdade
(11) Ek · · · E2 E1 A = In
em que k é o número de passos do método de Gauss-Jordan e cada uma das matrizes
Ei , correspondente ao passo i do método, é alguma das matrizes referidas acima.
Ora cada matriz Ei é invertı́vel! De facto, é imediato verificar que
• Sij−1 = Sij
−1
• Di,α = Di, 1
α
• (In + αEij )−1 = In − αEij
Multiplicando a igualdade (11) pelas inversas das matrizes Ek , Ek−1 , . . . obtemos
A = E1−1 E2−1 · · · Ek−1
Uma vez que A é um produto de matrizes invertı́veis, pela Proposição 2.18, A é
invertı́vel.

Vemos assim que, quando aplicamos o método de Gauss-Jordan para resolver simultanea-
mente os n sistemas lineares correspondentes à equação AB = In , só há duas possibilidades:
ou a aplicação do método mostra que a caracterı́stica de A é menor do que n e então A
não é invertı́vel ou, a caracterı́stica de A é n e então a matriz A é invertı́vel. Neste último
caso, uma vez que a matriz B calculada pelo método de Gauss-Jordan satisfaz AB = In ,
temos
A−1 (AB) = A−1 In ⇔ B = A−1 .
3. Espaços vetoriais
Um espaço vetorial é um “sı́tio onde se podem fazer combinações lineares”. Para isto tudo
o que é necessário é saber como somar e como multiplicar por escalar os objetos do espaço
vetorial. Para que estas combinações lineares se comportem como estamos habituados
nos exemplos que vimos até agora é necessário que satisfaçam certas propriedades que são
especificadas na definição de espaço vetorial.
O arquétipo de um espaço vetorial é Rn = {(x1 , . . . , xn ) : xi ∈ R} em que a multiplicação
por escalar é definida por
α · (x1 , . . . , xn ) = (αx1 , . . . , αxn )
e a soma por
(x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
Nos casos em que n = 1, 2 ou 3, estamos habituados a identificar Rn geometricamente com
o conjunto dos vetores com origem em (0, . . . , 0), e sabemos interpretar geometricamente
o produto por escalar e a soma.
Por exemplo, o conjunto de todas as combinações lineares de dois vetores em R3 formam
um plano que passa pela origem e contém os dois vetores.
A definição de espaço vetorial vai-nos permitir transferir a nossa intuição geométrica
sobre o comportamento de vetores no espaço para um sem-fim de novas situações!
Definição 3.1. Um espaço vetorial real é um conjunto não vazio V , cujos elementos se
designam por vetores, juntamente com duas funções
• Multiplicação por escalar: R × V → V que a um par (α, v) associa um vetor αv.
+
• Soma de vetores: V × V − → V que a um par de vetores (v, w) associa um vetor
v+w
satisfazendo as seguintes relações:
(i) Para todos os u, v, w ∈ V , u + (v + w) = (u + v) + w.
(ii) Para todos os u, v ∈ V , u + v = v + u.
(iii) Existe um elemento 0 ∈ V tal que, para todo o v ∈ V se tem v + 0 = v.
(iv) Para todo o v ∈ V existe um elemento w ∈ V tal que v + w = 0.
(v) Para todo o v ∈ V , tem-se 1v = v.
(vi) Para todos os α, β ∈ R, e v ∈ V tem-se α(βv) = (αβ)v.
(vii) Para todos os α ∈ R e v, w ∈ V tem-se α(v + w) = αv + αw.
(viii) Para todos os α, β ∈ R e v ∈ V tem-se (α + β)v = αv + βv.
Não é difı́cil mostrar que o elemento w tal que v + w = 0 é único: se v + w = v + w0 = 0
então
w0 = w0 + 0 = w0 + (v + w) = (w0 + v) + w = 0 + w = w + 0 = w
O único w tal que w + v = 0 chama-se o simétrico de v e denota-se por −v.
Observação 3.2. (i) Substituindo na definição acima R por C obtemos a definição de
um espaço vetorial complexo. Mais geralmente se K é um corpo (ver Observação
1.2) e substituirmos R por K obtemos a noção de espaço vetorial sobre o corpo K.
(ii) É também comum usar a terminologia espaço linear em vez de espaço vetorial.
Definição 3.3. Seja V um espaço vetorial e v1 , . . . , vk elementos de V . Diz-se que v ∈ V

é uma combinação linear dos vetores v1 , . . . , vk se existem α1 , . . . , αk ∈ R tais que
v = α1 v1 + . . . + αk vk
Os escalares α1 , . . . , αk chamam-se os coeficientes da combinação linear.
Exemplo 3.4. (1) Rn com a soma e produto por escalar definidos coordenada a co-
ordenada é um espaço vetorial real. A validade dos axiomas na Definição 3.1 é
uma consequência imediata das propriedades das operações de soma e produto de
números reais. Por exemplo a propriedade associativa da soma de vetores segue ime-
diatamente da propriedade associativa da soma de números reais. Analogamente
Cn = {(z1 , . . . , zn ) : zi ∈ C} é um espaço vetorial complexo, com as operações de
soma e produto por escalar definidas componente a componente.
(2) O conjunto Mm×n (R) das matrizes m × n reais é um espaço vetorial real. É esse
o conteúdo das Proposições 2.11 e 2.12. Analogamente, o conjunto das matrizes
Mm×n (C) é um espaço vetorial complexo.
(3) Seja S um conjunto não vazio. O conjunto F (S; R) = {f : S → R} das funções de
S para R munido das operações
def def
(f + g)(x) = f (x) + g(x) (αf )(x) = αf (x)
é um espaço vetorial real. Analogamente o conjunto das funções com valores com-
plexos é um espaço vetorial complexo. Note-se que este exemplo contém os dois
exemplos anteriores. De facto Rn é basicamente o caso em que o conjunto S é
{1, . . . , n} e Mm×n (R) é, por definição, o caso em que S = {1, . . . , m} × {1, . . . , n}.
Observação 3.5. É habitual referirmo-nos a um espaço vetorial apenas pelo conjunto
subjacente deixando implı́citas a estrutura de soma de vetores e multiplicação por escalares
quando estas são claras do contexto. Por exemplo, quando falamos do espaço vetorial
Mm×n (R) referimo-nos a este conjunto com as operações habituais de soma e multiplicação
por escalar.
Exemplo 3.6. Sejam v, w ∈ R3 dois vetores não colineares. Pelo significado geométrico
da soma de vetores e produto por escalar, o conjunto das combinações lineares de v e w é
o plano que passa pela origem e contém v e w. Dado um ponto u desse plano, o significado
dos coeficientes α, β na combinação linear u = αv + βw é o seguinte (familiar da noção de
coordenadas cartesianas)
• αv é o ponto de interseção da reta paralela a w que passa por u, com a reta deter-
minada por v e pela origem (que é o conjunto {λv : λ ∈ R}).
• βw é o ponto de interseção da reta paralela a v que passas por u, com a reta
{λw : λ ∈ R}
Vejamos mais alguns exemplos e não-exemplos de espaços vetoriais.
Exemplo 3.7. (i) O conjunto V de todos os polinómios reais com as operações de soma
e produto por escalar habituais é um espaço vetorial. Note-se que V está contido no
conjunto das funções reais F (S, R) e que as operações de soma e produto por escalar
são a restrição aos polinómios das operações definidas para as funções. Isso torna
a verificação da maioria dos axiomas na Definição 3.1 automáticas. De facto, uma
vez que se observe que a soma de polinómios e a multiplicação de um escalar por um
polinómio são polinómios, a validade das propriedades (i)-(ii) e (v)-(viii) é imediata
e resta apenas observar que a função nula é um polinómio logo (iii) é satisfeito e que
a função simétrica de um polinómio é um polinómio logo (iv) é também satisfeito.
(ii) Seja V = {(x, y) ∈ R2 : x ≥ 0, y ≥ 0} com a soma habitual de vetores em R2 e com o
produto por escalar definido por
def
α(x, y) = (|α|x, |α|y)
Com estas operações V não é um espaço vetorial porque os axiomas (iv) e (vii) não
são verificados. Por exemplo o vetor (1, 0) não tem simétrico e (0, 0) = 0(1, 0) =
(1 + (−1))(1, 0) 6= 1(1, 0) + (−1)(1, 0) = (2, 0). Em geral, se α e β têm sinais
contrários e v 6= 0, a igualdade (α + β)v = αv + βv não se verifica.
Definição 3.8. Seja V um espaço vetorial. Um subconjunto W ⊂ V diz-se um subespaço
vetorial de V se munido das operações de V é um espaço vetorial.
Implı́cito na definição anterior está que W é fechado para as operações de V , isto é que
se w1 , w2 ∈ W e α ∈ R então a soma de w1 e w2 em V pertence a W e o produto por
escalar em V , αw1 , pertence a W .
Exemplo 3.9. O Exemplo 3.7 (i) verifica que o conjunto dos polinómios é um subespaço
vetorial de F (S; R).
Como observámos no Exemplo 3.7 (i) quando W ⊂ V é um subconjunto de um espaço
vetorial fechado para a soma e multiplicação por escalar, a verificação de que W é um
espaço vetorial pode reduzir-se à verificação que o elemento neutro da soma e os simétricos
(em V ) de elementos de W pertencem a V . A próxima proposição mostra que mesmo estas
verificações não são necessárias.
Proposição 3.10. Seja V um espaço vetorial. Se W é um subconjunto não vazio de V
fechado para a soma e multiplicação por escalar, então W é um subespaço vetorial de V .
Proof. Como já observámos, a verificação dos axiomas (i)-(ii) e (v)-(viii) é imediata. É
um exercı́cio para as aulas práticas verificar que, para qualquer v ∈ V , o produto por
escalar 0v é o elemento neutro para a soma. Como W é não vazio e fechado para o produto
por escalar conclui-se que 0 ∈ W e portanto o axioma (iii) é verificado. É também um
exercı́cio para as aulas práticas verificar que o simétrico de v ∈ V é o produto por escalar
(−1)v. Uma vez que W é fechado para o produto por escalar conclui-se que o axioma (iv)
é verificado em W .
Exemplo 3.11. (i) Seja V o espaço vetorial de todos os polinómios reais. O subcon-
junto W ⊂ V formado pelos polinómios de grau menor ou igual a 3 é um subespaço
vetorial. De facto, de acordo com a proposição anterior basta observar que a soma de
polinómios de grau ≤ 3 tem grau ≤ 3 e que o produto de um polinómio de grau ≤ 3

por um escalar tem ainda grau ≤ 3.
(ii) O plano W = {(x, y, z) ∈ R3 : x+y+z = 0} é um subespaço vetorial de R3 . De acordo
com a Proposição acima basta notar que se (x, y, z), (x0 , y 0 , z 0 ) ∈ W e α ∈ R então
(x+x0 )+(y +y 0 )+(z +z 0 ) = 0 e (αx)+(αy)+(αz) = 0 logo (x+x0 , y +y 0 , z +z 0 ) ∈ W
e (αx, αy, αz) ∈ W .
(iii) Seja A uma matriz m × n. O núcleo de A é o conjunto
x1
 
N (A) = {x ∈ Rn : A  ...  = 0}
xn
Este conjunto é um subespaço vetorial de Rn (o argumento é exatamente o mesmo

que no exemplo anterior).
Intuitivamente devemos pensar nos espaços vetoriais como sendo objetos que se com-
portam de forma semelhante ao espaço euclidiano usual - R3 - e nos subespaços vetoriais
como sendo subconjuntos com comportamento semelhante ao das retas e planos em R3 que
passam pela origem.
Definição 3.12. Seja V um espaço vetorial e S ⊂ V um subconjunto. A expansão linear

de S em V é o conjunto L(S) das combinações lineares de elementos de S, isto é
L(S) = {α1 v1 + . . . + αn vn : α1 , . . . , αn ∈ R, v1 , . . . , vn ∈ S, n ∈ N}
Por convenção L(∅) = {0}.
Exemplo 3.13. (i) Seja V o espaço vetorial dos polinómios reais. Vamos determinar
se x + 2x3 ∈ L(S) onde S = {1 − x, x + x2 + x3 , x2 }. Por definição, a pergunta é se
existem escalares α1 , α2 , α3 ∈ R tais que
x + 2x3 = α1 (1 − x) + α2 (x + x2 + x3 ) + α3 x2
Como dois polinómios são iguais se têm os mesmos coeficientes, a igualdade anterior
é equivalente ao sistema
 

 α 1 = 0 
 α1 = 0

−α + α = 1 
α = 1
1 2 2
⇔

 α2 + α3 = 0 
 α3 = −1
 
α2 = 2 α2 = 2
 
Uma vez que o sistema é impossı́vel, conclui-se que x+2x3 6∈ L(S). Neste caso não se
justificava a utilização do método de Gauss para a resolução do sistema. Mas note-se
que se tivéssemos escrito o sistema acima da forma habitual, a matriz à qual irı́amos
aplicar o método de Gauss seria

 
1 0 0 | 0
 −1 1 0 | 1 
 
 0 1 1 | 0 
0 1 0 | 2
Os coeficientes dos elementos de S aparecem nas primeiras três colunas, enquanto
que a última coluna contém os coeficientes do polinómio x + 2x3 .
(ii) Sendo S = {(1, 3, 2), (0, 1, 4), (1, 4, 6)} ⊂ R3 , vamos determinar equações cartesianas
que definam L(S). Os elementos de L(S) são os vetores (a, b, c) ∈ R3 para os quais é
possı́vel achar α1 , α2 , α3 ∈ R tais que
(a, b, c) = α1 (1, 3, 2) + α2 (0, 1, 4) + α3 (1, 4, 6) = (a, b, c)
Ou seja, são os vetores (a, b, c) tais que o seguinte sistema é possı́vel
     
1 0 1 | a 1 0 1 | a 1 0 1 | a
−3L1
 3 1 4 | b  L2−→  0 1 1 | b − 3a  L−→ 3 −4L2
 0 1 1 | b − 3a 
L3 −2L1
2 4 6 | c 0 4 4 | c − 2a 0 0 0 | c − 4b + 10a
Conclui-se que (a, b, c) ∈ L(S) ⇔ c−4b+10a = 0. Geometricamente, L(S) é um plano
que passa pela origem. Normalmente, esperarı́amos que três vetores em R3 formassem
um referencial e que qualquer outro vetor se pudesse escrever como combinação linear
deles mas neste caso (1, 3, 2)+(0, 1, 4) = (1, 4, 6) e portanto podemos escrever qualquer
combinação linear dos três vetores de S usando apenas os dois primeiros. A expansão
linear destes dois vetores é um plano que tem equação paramétrica
(x, y, z) = α1 (1, 3, 2) + α2 (0, 1, 4), com α1 , α2 ∈ R
e, como vimos acima, equação cartesiana
10x − 4y + z = 0.
Proposição 3.14. Seja V um espaço vetorial e S ⊂ V um subconjunto. Então L(S) é o
mais pequeno subespaço vetorial de V que contém S. Mais precisamente
• L(S) é um subespaço vetorial de V e S ⊂ L(S).
• Se W ⊂ V é um subespaço vetorial de V que contém S, então L(S) ⊂ W .
Dem. Se S é vazio então as condições são claramente verificadas. Suponhamos que S é
não vazio. L(S) contém S porque dado v ∈ S temos que 1 · v = v é uma combinação
linear de elementos de S e portanto pertence a L(S). Para ver que L(S) é um subespaço
vetorial precisamos de ver que L(S) é fechado para a soma e para o produto por escalar.
Seja λ ∈ R um escalar e α1 v1 + . . . + αn vn um elemento de S. Então
λ(α1 v1 + . . . + αn vn ) = (λα1 )v1 + . . . + (λαn )vn
é também uma combinação linear de elementos de S e portanto pertence a L(S). Conclui-
se que L(S) é fechado para o produto por escalar. Por outro lado, dados dois elementos
α1 v1 + . . . + αn vn e β1 w1 + . . . + βm wm em L(S) a sua soma é

α1 v1 + . . . + αn vn + β1 w1 + . . . + βm wm
que é ainda uma combinação linear de elementos de S. Conclui-se que L(S) também é
fechado para a soma de vetores e portanto é um subespaço vetorial de V .
Finalmente, seja W um qualquer subespaço vetorial de V que contém S. Então dados
v1 , . . . , vn ∈ S e α1 , . . . , αn ∈ R temos que αi vi ∈ W (pois W é fechado para o produto por
escalar) e portanto
α1 v1 + . . . + αn vn ∈ W
(porque W é fechado para a soma). Conclui-se que W contém qualquer combinação linear
de elementos de S, ou seja, que W contém L(S).
Devido ao resultado enunciado na Proposição anterior, chamamos a L(S) o subespaço
gerado por S e se W = L(S) dizemos que W é gerado por S e que S é um conjunto de
geradores para W .
Exemplo 3.15. (i) Vamos achar um conjunto de geradores para o subespaço

a b
W = : a + b − 2c = 0, d − c + a = 0 ⊂ M2×2 (R)
c d
(é imediato verificar que W é de facto um subespaço vetorial de M2×2 (R)).
Podemos resolver o sistema dado pelas condições que definem W (aqui não se
justifica a aplicação do método de Gauss)
( (
a + b − 2c = 0 c = 21 a + 12 b
⇔
d−c+a=0 d = − 12 a + 12 b
O elemento tı́pico de W pode portanto escrever-se na forma

a b 1 0 0 1
1 =a 1 +b 1 1 com a, b ∈ R
2
a + 12 b − 12 a + 12 b 2
− 12 2 2
logo
1 0 0 1
S= 1 , 1 1
2
− 12 2 2
é um conjunto de geradores para W .
Seja A uma matriz m × n. Chama-se espaço das linhas de A, e denota-se por EL(A) ao
subespaço de Rn gerado pelas linhas de A. Por exemplo, para

2 0 1 4
(12)
0 3 1 2
temos
EL(A) = L({(2, 0, 1, 4), (0, 3, 1, 2)}) ⊂ R4
Quando aplicamos o método de Gauss(-Jordan) a uma matriz, o espaço das linhas não
muda. De facto suponhamos que
A = A1 → A2 → · · · → Ak
é uma sucessão de matrizes obtida por aplicação o método de Gauss-Jordan à matriz A.

Uma vez que as linhas de Ai+1 são combinações lineares das linhas da matriz Ai temos que
{linhas de Ai+1 } ⊂ EL(Ai )
e portanto, pela Proposição 3.14 temos EL(Ai+1 ) ⊂ EL(Ai ). Mas, as linhas de Ai também
são combinações lineares das linhas de Ai+1 , logo EL(Ai ) ⊂ EL(Ai+1 ) e conclui-se que
EL(Ai ) = EL(Ai+1 ). O método de Gauss-Jordan dá-nos portanto um método para deter-
minar um conjunto de geradores particularmente simples para o espaço das linhas de uma
matriz: as linhas não nulas da matriz em escada de linhas reduzida obtida como output
do algoritmo.
Analogamente definimos o espaço das colunas de uma matriz A do tipo m × n como o
subespaço de Rm gerado pelas colunas de A. Por exemplo, para a matriz (12) temos
EC(A) = L({(2, 0), (0, 3), (1, 1), (4, 2)}) = R2 .
Note-se que não é verdade que o espaço das colunas permaneça inalterado ao longo da
aplicação do método de Gauss.
Um espaço vetorial V diz-se finitamente gerado se existe um conjunto finito S ⊂ V tal
que V = L(S).
Exemplo 3.16. O espaço vetorial V formado por todos os polinómios reais não é finita-
mente gerado. De facto, sendo S = {p1 , . . . , pk } ⊂ V . um conjunto finito de polinómios e
ni o grau do polinómio pi podemos tomar
N = max{n1 , . . . , nk }
e claramente xN +1 não pode ser escrito como combinação linear de elementos de S. Isto
mostra que não existe um conjunto finito de geradores para V .
4. Dependência linear, bases e dimensão

Chegamos agora a alguns dos conceitos fundamentais da Álgebra Linear.
Definição 4.1. Seja V um espaço vetorial. Um conjunto S ⊂ V diz-se linearmente de-
pendente se existem v1 , . . . , vn ∈ S distintos e escalares α1 , . . . , αn não todos nulos tais
que
α1 v1 + . . . + αn vn = 0
Caso contrário, S diz-se linearmente independente. Um conjunto B ⊂ V diz-se uma base
de V se é linearmente independente e gera V .
Note-se que a negação da condição de dependência linear é logicamente equivalente
à seguinte condição, que utilizamos normalmente para testar independência linear: S é
linearmente independente se e só se dados v1 , . . . , vn elementos distintos de S e escalares
α1 , . . . , αn tais que α1 v1 + . . . + αn vn = 0 temos necessariamente α1 = · · · = αn = 0.
Exemplo 4.2. (i) Seja S = {v} um conjunto com um único elemento. Se v = 0 então S
é linearmente dependente uma vez que 1 · 0 é uma combinação linear com coeficientes
não nulos de elementos de S que produz o vetor 0. Se v 6= 0, então S é linearmente
independente. De facto, uma combinação linear de elementos de S com coeficientes

não nulos é da forma αv com α 6= 0 e é uma consequência dos axiomas de espaço
vetorial que sendo α 6= 0 e v 6= 0 então αv 6= 0 (ver o último exercı́cio da Ficha 4).
(ii) Se S contém o vetor nulo então S é linearmente independente (pois 1 · 0 = 0).
(iii) Mais geralmente, se S ⊂ S 0 e S é linearmente dependente, o mesmo é verdade para S 0
(pois a combinação linear com coeficientes não todos nulos que certifica a dependência
linear de S, certifica também a dependência linear de S 0 ). Equivalentemente, se S 0
é um conjunto linearmente independente e S ⊂ S 0 então S é também linearmente
independente.
(iv) Seja S = {v, w} um conjunto com dois elementos (distintos). Então S é linearmente
dependente se e só se v e w são colineares, isto é se um deles é um múltiplo escalar
do outro. De facto, se existem α1 , α2 não ambos nulos tais que
α1 v + α2 w = 0
ou α1 6= 0 e então v = ou α2 6= 0 e w = − αα21 v.
− αα21 w,
(v) Generalizando o exemplo anterior vemos que um conjunto S ⊂ V é linearmente
dependente se e só se um dos elementos de S pode ser expresso como uma combinação
linear dos restantes elementos de S. De facto uma das implicações é imediata e para
ver a outra, se S é linearmente dependente podemos escolher v1 , . . . , vn ∈ S e escalares
α1 , . . . , αn não todos nulos de tal forma que
α1 v1 + . . . + αn vn = 0
Assumindo, por exemplo, que αi 6= 0 temos que
αi−1 αi+1
vi = − αα1i v1 − . . . − αi
vi−1 − αi
vi+1 − ... − αn
v
αi n
é uma combinação linear de v1 , . . . , vi−1 , vi+1 , . . . , vn .
(vi) O subconjunto {(1, 2), (0, 3), (1, 0)} ⊂ R2 é linearmente dependente uma vez que
(1, 2) − (1, 0) − 32 (0, 3) = (0, 0)
Como nenhum par de vetores do conjunto é colinear, se retirarmos qualquer dos ve-
tores ao conjunto obtemos um conjunto linearmente independente, que claramente
gera R2 e constitui portanto uma base para R2 .
(vii) O conjunto B = {e1 = (1, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), . . . , en = (0, . . . , 0, 1)} é uma
base de Rn chamada a base canónica. De facto, dado (x1 , . . . , xn ) ∈ Rn temos
(x1 , . . . , xn ) = x1 e1 + . . . + xn en
logo L(B) = Rn e se α1 , . . . , αn são números reais e α1 e1 + . . . + αn en = 0 então dado
que
α1 e1 + . . . + αn en = (α1 , . . . , αn )
temos α1 = · · · = αn = 0 o que mostra que B é linearmente independente.
(viii) Se A é uma matriz m × n em escada de linhas, então as linhas não nulas constituem
uma base para EL(A). De facto já vimos acima que as linhas não nulas geram EL(A)
e se uma combinação linear das linhas se anular, o sistema para os coeficientes da
combinação linear que se obtém considerando apenas as componentes correspondentes
às colunas que contêm pivots implica imediatamente que os coeficientes da combinação
linear são todos nulos. Por exemplo, para
 
2 1 1 4
A= 0 0 1 2 
0 0 0 0
olhando apenas para a primeira e terceira componente dos vetores na equação
α1 (2, 1, 1, 4) + α2 (0, 0, 1, 2) = (0, 0, 0, 0)
vemos que
2α1 = 0 e α1 + α2 = 0
pelo que α1 = α2 = 0.
O método de Gauss dá-nos portanto uma maneira prática de determinar uma base
para o espaço das linhas de uma matriz (e, na prática, para qualquer subespaço de
um espaço vetorial finitamente gerado).
(ix) É um exercı́cio simples verificar que {1, x, x2 , . . . , xn , . . .} é uma base para o espaço
vetorial dos polinómios reais.
Intuitivamente, uma base para um espaço vetorial é um “referencial”. De facto, se B
é uma base de V , os coeficientes da combinação linear que exprime um vetor v ∈ V em
termos dos elementos de B são únicos: Admitindo que B = {v1 , . . . , vn }, qualquer vetor v
pode ser escrito na forma
v = α1 v1 + . . . + αn vn
(porque B gera V ) mas se tivermos também
v = β1 v1 + . . . + βn vn
então subtraindo as duas igualdades temos
0 = (α1 − β1 )v1 + . . . + (αn − βn )vn
e, uma vez que, B é um conjunto linearmente independente, isto implica que α1 − β1 =
0, . . . , αn − βn = 0. Os coeficientes dos elementos da base chamam-se as coordenadas de v
na base B. Uma base permite assim identificar os vetores de V com listas de escalares (ou
seja com Rn onde n = dim V ).
Vejamos agora algumas propriedades importantes relativas à dependência linear. Sug-
erimos que ao ler os enunciados que se seguem se tenha em mente o exemplo de R3 e a
interpretação geométrica usual da combinação linear de vetores no espaço assim como dos
subespaços lineares de R3 - retas, planos, etc.
Proposição 4.3. Seja V um espaço vetorial e S ⊂ V um conjunto linearmente indepen-
dente. Se v 6∈ L(S) então S ∪ {v} é linearmente independente.
Dem. Sejam v1 , . . . , vn vetores distintos de S e α1 , . . . , αn , αn+1 escalares. Temos a verificar
que se
α1 v1 + . . . + αn vn + αn+1 v = 0
então α1 = · · · = αn+1 = 0. Notamos primeiro que αn+1 é necessariamente 0 porque senão

α1 αn
v=− v1 − · · · − − vn
αn+1 αn+1
é uma combinação linear de elementos de S, contrariando a hipótese da Proposição. Mas
então
α1 v1 + . . . + αn vn = 0
Como S é linearmente independente segue que α1 = · · · = αn = 0.
Proposição 4.4. Seja V um espaço vetorial e S ⊂ V um subconjunto.

(i) Se S é finito, existe um subconjunto T ⊂ S tal que L(T ) = L(S) e T é linearmente
independente.
(ii) Se S é uma base de V com n elementos, então qualquer subconjunto de V com mais
de n elementos é linearmente dependente.
(iii) Se V é um espaço vetorial finitamente gerado, qualquer subconjunto linearmente in-
dependente T ⊂ V está contido numa base de V .
Dem. (i) A demonstração é por indução no número de elementos de S. Se S = {v}

tem apenas um elemento então, ou v = 0 e então podemos tomar T = ∅ ou v 6= 0
e então S é linearmente independente e podemos tomar T = S. Suponhamos agora
que a afirmação é válida para conjuntos com n elementos e suponhamos que S tem
n + 1 elementos. Se S é linearmente independente então podemos tomar T = S.
Senão podemos escolher um vetor v ∈ S que se pode escrever como combinação
linear dos elementos de S \ {v}, e então L(S) = L(S \ {v}). Como S \ {v} tem n
elementos, por hipótese de indução existe T ⊂ S \ {v} linearmente independente tal
que L(T ) = L(S \ {v}) = L(S), o que conclui a demonstração.
(ii) Seja S = {v1 , . . . , vn } uma base de V . Vamos mostrar que qualquer conjunto {w1 , . . . , wn+1 }
formado por n + 1 elementos distintos de V é linearmente dependente. Uma vez que
S é uma base, existem escalares aij tais que
w1 = a11 v1 + . . . + a1n vn
w2 = a21 v1 + . . . + a2n vn
..
.
wn+1 = a(n+1)1 v1 + . . . + a(n+1)n vn
Escrevendo uma combinação linear
α1 w1 + . . . + αn+1 wn+1
na base S obtemos
(13) (α1 a11 + α2 a21 + . . . + αn+1 a(n+1)1 )v1 + . . . + (α1 a1n + α2 a2n + . . . + αn+1 a(n+1)n )vn
Pretendemos mostrar que existem αi ’s não todos nulos tais que a expressão (13) é
nula. Mas para que (13) seja nula basta que se verifiquem as condições
α1 a11 + α2 a21 + . . . + αn+1 a(n+1)1 = 0
..
.
α1 a1n + α2 a2n + . . . + αn+1 a(n+1)n = 0
Estas condições dizem que (α1 , . . . , αn ) é uma solução do sistema linear homogéneo
cuja matriz dos coeficientes é aij . Trata-se de um sistema de n equações com (n + 1)
incógnitas logo tem sempre (infinitas) soluções não nulas (pois há pelo menos uma
variável livre). Isto conclui a demonstração.
(iii) Seja T um conjunto linearmente independente e S = {v1 , . . . , vn } um conjunto de
geradores para V . Claramente L(T ∪ S) = V (mas infelizmente T ∪ S pode não ser
linearmente independente). Seja vi o primeiro vetor de S que não pertence a L(T )
(se não existir então L(T ) = L(T ∪ S) = V e T é a base requerida). Temos, por um
lado, que L(T ∪ {vi , . . . , vn }) = L(T ∪ S) = V e por outro, pela Proposição 4.3, que
T ∪ {vi } é linearmente independente. Seja agora vj o primeiro dos vetores vi+1 , . . . , vn
que não pertence a L(T ∪ {vi }) (se não existir então L(T ∪ {vi }) = V e T ∪ {vi } é a
base requerida). Temos agora que
L(T ∪ {vi , vj , vj+1 , . . . vn }) = V
e, pela Proposição 4.3, que (T ∪{vi })∪{vj } é linearmente independente. Prosseguindo
desta maneira, obtemos após um número finito de passos uma base para V contendo
T . Este procedimento é na realidade um algoritmo para achar esta base.

Observação 4.5. A demonstração da Proposição 4.4(iii) pode ser formalizada usando
indução no número de vetores de V que é necessário acrescentar ao conjunto T para obter
um conjunto de geradores para V . Se este número é 0 então T é já uma base de V . O
argumento na demonstração acima pode facilmente ser adaptado para demonstrar o passo
da indução: Se quando basta acrescentar n vetores a T para gerar V , o conjunto T pode ser
completado de forma a obter uma base, então o mesmo se verifica quando basta acrescentar
n + 1 vetores a T para gerar V .
Podemos agora facilmente demonstrar o seguinte resultado fundamental.
Teorema 4.6. Seja V um espaço vetorial finitamente gerado. Então V tem uma base
finita e todas as bases de V têm o mesmo número de elementos.
Dem. Seja S um conjunto finito tal que V = L(S). Pela Proposição 4.4(i), o conjunto S
contém um subconjunto T que é linearmente independente e tal que L(T ) = L(S) = V . T
é portanto uma base de V e trata-se de um conjunto finito porque S é finito.
Suponhamos que B é uma outra base de V . A Proposição 4.4(ii) garante que #B ≤ #T
(senão B seria linearmente dependente). Mas o mesmo raciocı́nio diz-nos que #T ≤ #B e
portanto B e T têm o mesmo número de elementos.
Definição 4.7. O número de elementos de qualquer base de um espaço finitamente gerado

chama-se a dimensão de V e denota-se por dim V . Se um espaço vetorial V não tem uma
base finita, diz-se que tem dimensão infinita.
É imediato da Proposição 4.4(i) que um espaço tem dimensão infinita se e só se não é
finitamente gerado.
Exemplo 4.8. À luz do Exemplo 4.2(vii),(viii) e (ix) temos
(i) dim Rn = n.
(ii) Se A é uma matriz, então dim EL(A) é igual à caracterı́stica da matriz A.
(iii) O espaço dos polinómios tem dimensão infinita.
Intuitivamente, a dimensão de um conjunto é o número de parâmetros reais (ou coorde-
nadas) que necessitamos para descrever os pontos do conjunto. Por exemplo a superfı́cie
da Terra tem dimensão 2 pois um ponto à superfı́cie da terra é descrito por dois números
reais - a latitude e a longitude. Estas questões serão discutidas mais tarde na disciplina de
Cálculo 2. O Teorema 4.6 encoraja esta nossa intuição ao afirmar que numa gama restrita
de exemplos - aqueles em que o conjunto em questão tem a estrutura de um espaço veto-
rial finitamente gerado - não há qualquer ambiguidade quanto ao número de parâmetros
necessários para descrever o conjunto.
Exemplo 4.9. A dimensão do espaço M2×4 (R) é 8. De facto é imediato verificar que as
oito matrizes

1 0 0 0 0 1 0 0 0 0 0 0
E11 = , E12 = , . . . , E42 =
0 0 0 0 0 0 0 0 0 0 0 1
constituem uma base. Mais geralmente dim Mm×n (R) = mn. Uma base é dada pelas
matrizes {Eij }1≤i≤m,1≤j≤n onde Eij designa a matriz que tem 1 como entrada ij e todas as
restantes entradas iguais a 0.
Corolário 4.10. Seja V um espaço vetorial de dimensão n.
(i) Qualquer conjunto linearmente independente com n vetores é uma base de V .
(ii) Qualquer conjunto de geradores tem pelo menos n elementos.
Dem. (i) Seja S um conjunto linearmente independente com n vetores. Se L(S) 6= V
então podemos escolher v 6∈ L(S) e, pela Proposição 4.3, o conjunto S ∪ {v} é um
conjunto linearmente independente com n + 1 elementos. Isto não é possı́vel pela
Proposição 4.4 (ii)
(ii) Pela Proposição 4.4(i), qualquer conjunto de geradores contém uma base e portanto,
pelo Teorema 4.6 tem pelo menos n elementos.

Observação 4.11. Todos os resultados demonstrados acima que assumem que o espaço ve-
torial em questão é finitamente gerado admitem versões para espaços vetoriais arbitrários.
Por exemplo em qualquer espaço vetorial é verdade que duas bases têm o mesmo número de
elementos, no sentido em que é possı́vel definir uma correspondência bijetiva entre os ele-
mentos de uma base e da outra. A demonstração destas versões mais gerais requer alguns
conhecimentos de Teoria dos Conjuntos pelo que não discutiremos estes resultados.
Vejamos como as propriedades dos conjuntos linearmente independentes e bases demon-
strados acima podem auxiliar o cálculo de bases e a determinação se um conjunto é ou não
linearmente dependente.
Exemplo 4.12. Vamos verificar que o conjunto B = {(1, 0, 1), (1, 1, 0), (0, 0, 3)} é uma
base para R3 e determinar as componentes de (1, 2, 1) nesta base.
Uma vez que dim R3 = 3, de acordo com o Corolário 4.10(i) para ver que B é uma base
basta-nos verificar que B é um subconjunto linearmente independente de R3 . Podemos
fazer isto (pelo menos) de duas formas:
• Usando a definição: B é linearmente independente se e só se
α(1, 0, 1) + β(1, 1, 0) + γ(0, 0, 3) = (0, 0, 0) ⇒ α = β = γ = 0
A equação à esquerda da implicação é um sistema linear homogéneo cujas incógnitas
são os coeficientes α, β, γ. Resolvendo o sistema vemos se o conjunto é ou não
linearmente independente:
 

 α + β = 0 α = 0

β=0 ⇔ β=0

α + 3γ = 0 
γ = 0
o que mostra que B é linearmente independente. Neste caso não se justificava

utilizar o método de Gauss para resolver o sistema, mas vale a pena notar (para
quando as contas sejam mais complicadas) que o sistema em questão tem como
coeficientes a matriz cujas colunas são os elementos do conjunto B. No exemplo
acima:  
1 1 0
 0 1 0 
1 0 3
• Alternativamente podemos usar a observação feita no Exemplo 4.2(viii) acima. Se
escrevermos os elementos de B nas linhas de uma matriz e aplicarmos o método de
Gauss à matriz obteremos, no final, uma base para L(B) e, em particular, calculare-
mos a dimensão da expansão linear de B. B será linearmente independente se e só
se dim L(B) for igual ao número de elementos de B. De facto, se dim L(B) < #B
então pela Proposição 4.4 (ii) B será linearmente dependente. Por outro lado, se
dim L(B) = #B, B não pode ser linearmente dependente porque, se assim fosse,
a Proposição 4.4 (i) garantiria a existência de uma base para L(B) com menos
elementos que B o que contradiria o Teorema 4.6.
Finalmente, a determinação das componentes de um vetor numa dada base consiste na
solução de um sistema linear:
α(1, 0, 1) + β(1, 1, 0) + γ(0, 0, 3) = (1, 2, 1)
que podemos escrever na forma de uma matriz aumentada

     
1 1 0 | 1 1 1 0 | 1 1 1 0 | 1
L3 −L1 L3 +L2
 0 1 0 | 2  −→  0 1 0 | 2  −→  0 1 0 | 2 
1 0 3 | 1 0 −1 3 | 0 0 0 3 | 2
donde obtemos os coeficientes α = −1, β = 2, γ = 23 .

1 2 −1 0 0 2
Exemplo 4.13. Consideremos o conjunto S = , , ⊂ M2×2 (R).
0 1 1 2 1 3
Vamos determinar uma base para o espaço L(S) ⊂ M2×2 (R) e completá-la de forma a obter
uma base para M2×2 (R).
A observação básica para realizar estes cálculos é que estas matrizes se identificam nat-
uralmente com vetores de R4 através da correspondência

a b
⇔ (a, b, c, d)
c d
De facto tanto a soma como o produto por escalar são, em ambos os casos, efetuados coor-
denada a coordenada. Para determinar uma base para L(S) podemos portanto (conforme
o Exemplo 4.4(viii)) aplicar o método de Gauss a uma matriz cujas linhas são os vetores
de R4 correspondentes aos elementos de S:
     
1 2 0 1 1 2 0 1 1 2 0 1
3 −L2
 −1 0 1 2  L−→ 2 +L1
 0 2 1 3  L−→  0 2 1 3 
0 2 1 3 0 2 1 3 0 0 0 0
Conclui-se que uma base para L(S) é

1 2 0 2
,
0 1 1 3
(e portanto L(S) tem dimensão 2). Para completar este conjunto de forma a obter uma
base de M2×2 (R) precisamos de juntar dois vetores ao conjunto acima de forma a que o
conjunto resultante seja ainda linearmente independente. Isto porque dim M2×2 (R) = 4 e
portanto, pelo Corolário 4.10, qualquer subconjunto linearmente independente de M2×2 (R)
com quatro elementos constitui uma base para M2×2 (R).
Podemos novamente apoiar-nos na correspondência entre M2×2 (R) e R4 e no facto de
as linhas de uma matriz em escada de linhas serem linearmente independentes. Uma vez
que  
1 2 0 1
 0 2 1 3 
 
 0 0 1 0 
0 0 0 1
está em escada de linhas, o conjunto

1 2 0 2 0 0 0 0
, , ,
0 1 1 3 1 0 0 1
é uma base de M2×2 (R) contendo a base de L(S).
5. Mudanças de coordenadas
Definição 5.1. Uma base ordenada B de um espaço vetorial de dimensão finita V é uma
sequência finita B = (v1 , . . . , vn ) de vetores distintos vi ∈ V tais que o conjunto {v1 , . . . , vn }
é linearmente independente e gera V
Como o nome indica, a diferença entre base e base ordenada é que numa base ordenada
escolhemos explicitamente uma ordem para os vetores da base. Há um primeiro vetor
da base, um segundo, etc... Na realidade até agora, quando fizemos cálculos escolhemos
implicitamente uma ordem para os vetores das bases envolvidas de forma a poder identificar
o espaço vetorial em questão com Rn .
Uma base ordenada B = (v1 , . . . , vn ) determina uma bijeção natural
V ←→ Rn
que faz corresponder a um vetor v ∈ V os seus coeficientes na base B, na ordem indicada,
v = α1 v1 + . . . + αn vn ←→ (α1 , . . . , αn )
O escalar αi diz-se a i-ésima coordenada de v na base ordenada B.
Exemplo 5.2. (i) A base ordenada canónica de Rn é B = (e1 , . . . , en ), onde ei =
(0, . . . , 0, 1, 0, . . . , 0) (com o 1 na posição i). Uma vez que
(x1 , . . . , xn ) = x1 e1 + . . . + xn en
as coordenadas de (x1 , . . . , xn ) na base canónica são (x1 , . . . , xn ).
(ii) Para 0 < α < π2 , seja B = ((cos α, sen α), (− sen α, cos α)) a base ordenada de R2 que
se obtém rodando os vetores da base canónica um ângulo α no sentido anti-horário.
Vamos achar as coordenadas do vetor (1, 0) na base B.
Podemos fazê-lo usando a interpretação geométrica das coordenadas (conforme
o Exemplo 3.6) e trigonometria elementar obtendo (cos α, − sen α) ou, alternativa-
mente, resolvendo o sistema
(
c1 cos α − c2 sen α = 1
(1, 0) = c1 (cos α, sen α) + c2 (− sen α, cos α) ⇔
c1 sen α + c2 cos α = 0
A combinação linear cos αL1 + sen αL2 das duas equações do sistema produz c1 =
cos α, e substituindo na segunda equação temos
cos α sen α + c2 cos α = 0 ⇔ c2 = − sen α
(uma vez que cos α > 0). Em geral, podemos ver geometricamente qual é a relação
entre as coordenadas (a, b) de um vetor na base canónica e as suas coordenadas na
base B. As coordenadas na base B obtêm-se de (a, b) rodando este vetor um ângulo
α no sentido horário.
Vimos no exemplo anterior que as coordenadas na nova base B podiam ser obtidas a
partir das coordenadas noutra base (a base canónica) através de uma certa transformação.
É natural perguntar em geral qual é a relação entre as coordenadas de um vetor v ∈ V em
duas bases ordenadas B1 = (v1 , . . . , vn ) e B2 = (w1 , . . . , wn ) de V dadas.
Seja
v = α1 v1 + . . . + αn vn
Para achar as coordenadas de v na base B2 podemos escrever os vetores vi na base B2 :
v1 = a11 w1 + a21 w2 + . . . + an1 wn
v2 = a12 w1 + a22 w2 + . . . + an2 wn
..
.
vn = a1n w1 + a2n w2 + . . . + ann wn
Substituindo na fórmula para v obtemos
v = α1 (a11 w1 + a21 w2 + . . . + an1 wn ) + α2 (a12 w1 + a22 w2 + . . . + an2 wn ) +
. . . + αn (a1n w1 + a2n w2 + . . . + ann wn )
= (a11 α1 + a12 α2 + . . . + a1n αn )w1 + (a21 α1 + a22 α2 + . . . + a2n αn )w2 +
. . . + (an1 α1 + an2 α2 + . . . + ann αn )wn
Escrevendo (β1 , . . . , βn ) para as coordenadas do vetor v na base B2 temos portanto
β1 a11 a12 . . . a1n α1
    
 β2   a21 a22 . . . a1n   α2 
 . = . .. .. ..   . 
 ..   .. . . .   .. 
βn an1 an2 . . . ann αn
onde na coluna j da matriz [aij ] aparecem as coordenadas do vetor vj na base B2 .
Proposição 5.3. Seja V um espaço vetorial de dimensão n e B1 e B2 bases ordenadas
para V . Existe uma única matriz n × n, denotada por SB1 →B2 , tal que para todo o vetor
v ∈ V , as coordenadas (β1 , . . . , βn ) de v na base B2 e as coordenadas (α1 , . . . , αn ) de v na
base B1 estão relacionadas da seguinte forma
β1 α1
   
 β2   α 
 .  = SB1 →B2  .2 
 ..   .. 
βn αn
A esta matriz chama-se a matriz de mudança de coordenadas da base B1 para a base B2 .
Dem. Já observámos acima que é possı́vel relacionar as coordenadas através de uma matriz.
Para ver que a matriz é única note-se que se existir uma tal matriz S então a j-ésima
coluna da matriz terá necessariamente de consistir nas coordenadas do j-ésimo vetor da
base B1 na base B2 . De facto, as coordenadas desse vetor (chamemos-lhe vj ) na base B1
são (0, . . . , 0, 1, 0, . . . , 0) com o 1 na j-ésima posição, e ao multiplicarmos a matriz S por
este vetor de coordenadas obtemos a j-ésima coluna de S que tem então que conter as
coordenadas de vj na base B2 .
Exemplo 5.4. A matriz de mudança de base da base canónica Bcan de R2 para a base B
do Exemplo 5.2 é dada por

cos α sen α
SBcan →B =
− sen α cos α
De fato, a primeira coluna contém as componentes do primeiro vetor da base canónica na
base B como vimos no Exemplo 5.2 e da mesma forma podemos verificar que a segunda
coluna contém as coordenadas do vetor (0, 1) na base B. Note-se que o efeito que tem
a multiplicação desta matriz por um vetor coluna é a rotação do vetor um ângulo α no
sentido horário conforme tı́nhamos previsto geometricamente.
Proposição 5.5. Seja V um espaço vetorial de dimensão finita e B1 , B2 , B3 bases orde-
nadas para V . Temos as seguintes relações entre as matrizes de mudança de coordenadas:
(i) SB1 →B3 = SB2 →B3 SB1 →B2
(ii) SB2 →B1 = (SB1 →B2 )−1
Dem. (i) Sejam X1 , X2 e X3 os vetores coluna contendo as coordenadas de um dado
vetor v ∈ V . Por definição das matrizes de mudança de coordenadas temos
X2 = SB1 →B2 X1 , X3 = SB2 →B3 X2
Substituindo a primeira equação na segunda obtemos
X3 = SB2 →B3 (SB1 →B2 X1 ) = (SB2 →B3 SB1 →B2 ) X1
Uma vez que a equação anterior é válida para qualquer vetor v ∈ V e a matriz de
mudança de coordenadas é única conclui-se que
SB1 →B3 = SB2 →B3 SB1 →B2
(ii) Claramente, para qualquer base ordenada B com n elementos, temos que a matriz
de mudança de coordenadas da base B para ela própria é a matriz identidade In .
Aplicando o ponto (i) com B3 = B1 obtemos
In = SB2 →B1 SB1 →B2
e da mesma forma, trocando B1 com B2
In = SB1 →B2 SB2 →B1
o que mostra que SB1 →B2 e SB2 →B1 são matrizes inversas.

Observação 5.6. Note-se que o ponto (ii) da Proposição anterior diz, em particular, que
uma matriz de mudança de base é sempre invertı́vel. Reciprocamente, é um exercı́cio da
ficha para as aulas práticas que qualquer matriz invertı́vel é uma matriz de mudança de
base (a partir de qualquer base dada).
6. Transformações lineares
Na Matemática estuda-se certos objetos cuja natureza depende da área da Matemática.
Por exemplo, na Álgebra Linear estuda-se espaços vetoriais, enquanto que em Geometria
se pode estudar, por exemplo, curvas e superfı́cies. Normalmente estes objetos consistem
em conjuntos munidos de certa estrutura adicional. No caso dos espaços vetoriais esta
estrutura adicional toma a forma das operações de soma de vetores e o produto de vetores
por escalares. Para estudar os objetos em questão é sempre necessário pensar em como se
relacionam entre eles. As relações entre os objetos manifestam-se através de funções entre
os conjuntos subjacentes que preservam a estrutura adicional. No caso que nos interessa
agora isso leva-nos à seguinte definição.
Definição 6.1. Sejam V e W espaços vetoriais. Uma função f : V → W diz-se uma
transformação linear de V para W se
(i) f (v1 + v2 ) = f (v1 ) + f (v2 ) para todos os v1 , v2 ∈ V .
(ii) f (αv) = αf (v) para todo o v ∈ V e escalar α.
As transformações lineares são portanto as funções entre os conjuntos subjacentes aos
espaços vetoriais que preservam a soma e o produto por escalar. Note-se que na definição
acima aparecem duas somas (em geral) distintas no axioma (i): do lado esquerdo do sinal
de igual, a soma é a soma de vetores em V , enquanto que do lado direito se trata da soma
em W . Analogamente para os dois produtos por escalar que aparecem no axioma (ii).
Chamamos a atenção para as seguintes consequências imediatas dos axiomas acima: uma
transformação linear leva necessariamente o vetor 0 ∈ V no vetor 0 ∈ W . De facto, sendo
v ∈ V um vetor qualquer sabemos que 0 · v = 0. Como f preserva o produto por escalar
temos então
f (0) = f (0 · v) = 0 · f (v) = 0 ∈ W
A outra observação importante é que uma transformação linear leva combinações lineares
em V para combinações lineares em W : dados escalares α1 , . . . , αn e vetores v1 , . . . , vn
temos
f (α1 v1 + . . . + αn vn ) = f (α1 v1 ) + f (α2 v2 ) + . . . + f (αn vn )
= α1 f (v1 ) + . . . + αn f (vn )
Vejamos alguns exemplos de transformações lineares f : V → W .
Exemplo 6.2. (1) Sejam V = W = R = R1 . A função f : R → R definida pela
expressão f (x) = 2x é uma transformação linear. De facto temos
f (x1 + x2 ) = 2(x1 + x2 ) = 2x1 + 2x2 = f (x1 ) + f (x2 )
f (αx) = 2(αx) = α(2x) = αf (x)
O gráfico de f é uma linha reta que passa pela origem. Mais geralmente, é fácil
ver (exercı́cio) que uma função f : R → R é uma transformação linear se e só se
f é uma função linear, isto é, da forma f (x) = ax para algum número real a ∈ R.
Assim, as transformações lineares são as funções reais de variável real cujos gráficos
são retas que passam pela origem.
Por exemplo, a expressão f (x) = 3x + 1 não define uma transformação linear

de R para R. De facto f (0 + 0) = 1 é diferente de f (0) + f (0) = 1 + 1 = 2.
Alternativamente, f (0) = 1 6= 0 e vimos acima que uma transformação linear leva
sempre o vetor nulo do conjunto de partida no vetor nulo do conjunto de chegada.
(2) Sejam V = W = R2 e identifiquemos como habitualmente R2 com o plano. Considere-
se a função f : R2 → R2 definida geometricamente como “rotação de 90 graus em
torno da origem no sentido anti-horário”. Apelando ao significado geométrico da
soma de vetores e produto por escalar é imediato verificar que esta transformação
preserva a soma de vetores e o produto por escalar pelo que é uma transformação
linear.
Podemos verificar a afirmação anterior obtendo uma expressão analı́tica para a
função f . Sendo (a, b) um vetor no primeiro quadrante é imediato verificar que
após a rotação o vetor fica com coordenadas (−b, a). É fácil verificar que o mesmo
sucede para qualquer vetor pelo que a expressão analı́tica para a rotação é
f (a, b) = (−b, a)
Podemos agora ver que f é uma transformação linear:
f ((a1 , b1 ) + (a2 , b2 )) = f (a1 + a2 , b1 + b2 )
= (−b1 − b1 , a1 + a2 ) = (−b1 , a1 ) + (−b2 , a2 )
= f (a1 , b1 ) + f (a2 , b2 )
e
f (α(a, b)) = f (αa, αb) = (−αb, αa) = α(−b, a) = f (a, b)
Note-se que identificando os vetores de R2 com matrizes coluna 2 × 1, podemos
escrever f da seguinte forma

a 0 −1 a
f =
b 1 0 b
(3) Seja V = Rn , W = Rm e A uma matriz m × n. Identificando como habitual-
mente vetores de Rn com matrizes coluna podemos definir uma transformação linear
f : Rn → Rm através da fórmula
f (x) = Ax
O exemplo anterior é um caso particular deste. De facto, o primeiro exemplo
também é. Nesse caso, A = [a] é uma matriz 1 × 1.
(4) Seja W = F (R, R) o espaço vetorial das funções reais de variável real e
V = {f ∈ W : f é diferenciável}
o subespaço vetorial formado pelas funções diferenciáveis. Então a aplicação T : V →
W definida por
T (f ) = f 0
ou seja a operação de derivação, é uma transformação linear. De facto temos
T (f + g) = (f + g)0 = f 0 + g 0 = T (f ) + T (g)
e
T (αf ) = (αf )0 = αf 0
pelas regras de derivação para a soma e para o produto por escalar. Estas regras
dizem precisamente que a operação de derivação é uma transformação linear. Este
exemplo é, pelo menos aparentemente, muito diferente dos anteriores. O conceito
de transformação linear estabelece assim uma relação entre operações tão diferentes
como uma rotação do plano e a operação de derivação de uma função.
(5) Seja V = Mm×n (R) e W = Mp×q (R) e sejam B uma matriz p × m e C uma matriz
n × q. Então a aplicação T : V → W definida pela fórmula
T (A) = BAC
é uma transformação linear:
T (A1 + A2 ) = B(A1 + A2 )C = (BA1 + BA2 )C
= BA1 C + BA2 C = T (A1 ) + T (A2 )
(pela distributividade do produto de matrizes em relação à soma, e associatividade
da multiplicação de matrizes) e
T (αA) = B(αA)C = (αBA)C = αBAC
pela relação entre o produto de matrizes e o produto por escalar. Um exemplo
concreto é por exemplo a transformação T : M2×2 (R) → M4×3 (R) determinada pelas
matrizes  
1 3
 −2 0  0 1 2
B=   , C=
−1 1  −1 1 0
2 0
que é dada pela fórmula
   
1 3 −b − 3d a + b + 3c + 3d 2a + 6c
a b  −2 0  a b 0 1 2  2b −2a − 2b −4a 
T =  = 
c d  −1 1  c d −1 1 0  b−d −a − b + c + d −2a + 2c 
2 0 −2b 2a + 2b 4a
(6) Seja V o espaço vetorial dos polinómios e W = R2 . Então a função f : V → R2
definida por
f (p) = (p(1), p00 (2))
é uma transformação linear:
f (p + q) = ((p + q)(1), (p + q)00 (2)) = (p(1) + q(1), p00 (2) + q 00 (2))
= (p(1), p00 (2)) + (q(1), q 00 (2)) = f (p) + f (q)
f (αp) = ((αp)(1), (αp)00 (2)) = (αp(1), αp00 (2)) = α(p(1), p00 (2))
porque a soma de funções e a multiplicação de uma função por escalar são calculadas
ponto a ponto e pelas regras de derivação. Note-se que este exemplo é, pelo menos
aparentemente, de uma natureza bastante diferente dos exemplos (1)-(5) acima.
Proposição 6.3. Sejam V, W espaços vetoriais, B = {v1 , . . . , vn } uma base para V e

w1 , . . . , wn vetores quaisquer de W . Então existe uma única transformação linear f : V →
W tal que f (vi ) = wi .
Dem. Começamos por mostrar a unicidade. Suponhamos que f : V → W é uma trans-
formação linear tal que f (vi ) = wi . Dado um vetor v ∈ V qualquer, existem escalares
α1 , . . . , αn únicos tais que
v = α1 v1 + . . . + αn vn
Uma vez que uma transformação linear preserva combinações lineares, teremos necessari-
amente
(14) f (v) = f (α1 v1 + . . . + αn vn ) = α1 f (v1 ) + . . . + αn f (vn ) = α1 w1 + . . . + αn wn
Obtemos assim uma fórmula para f que mostra a unicidade da transformação linear (caso
exista). Para verificar que existe e completar a demonstração resta ver que a expressão
(14) define efetivamente uma transformação linear com as propriedades requeridas. Seja
então f : V → W a função definida pela expressão (14).
• f envia o vetor vi ∈ B em wi : Temos vi = 0·v1 +. . .+0·vi−1 +1·vi +0·vi+1 +. . . 0·vn
logo f (vi ) = 0 · w1 + . . . + 0 · wi−1 + 1 · wi + 0 · wi+1 + . . . 0 · wn = wi .
• f é uma transformação linear: Sejam v = α1 v1 + . . . + αn vn e w = β1 v1 + . . . + βn vn
dois vetores quaisquer de V . Então v + w = (α1 + β1 )v1 + . . . + (αn + βn )vn pelo
que
f (v + w) = (α1 + β1 )w1 + . . . + (αn + βn )wn
= (α1 v1 + . . . + αn vn ) + (β1 v1 + . . . + βn vn ) = f (v) + f (w)
e, dado um escalar α temos αv = αα1 v1 + . . . + ααn vn e portanto
f (αv) = αα1 w1 + . . . + ααn wn = α(α1 w1 + . . . + αn wn ) = αf (v)
o que conclui a demonstração.

O resultado anterior pode ser visto (pelo menos) de duas maneiras diferentes. Por um
lado, dá-nos um método para construir transformações lineares: basta escolher uma base
para o espaço de partida e decidir qual o valor que irá tomar em cada vetor da base. Além
disso a demonstração acima dá-nos uma fórmula ((14)) para a transformação linear assim
obtida. Por outro lado, a Proposição diz-nos que as transformações lineares são funções
excepcionalmente simples. Para definir uma função de V para W é normalmente necessário
decidir o seu valor individualmente para cada vetor de V . A Proposição anterior diz que
quando f é linear, todo o comportamento da função é completamente determinado pelos
valores que toma num número finito de elementos do domı́nio (os vetores constituintes de
uma base).
Observação 6.4. A Proposição 6.3 é ainda válida quando a base de V é um conjunto
infinito, sendo a demonstração essencialmente a mesma. Deixamos esta verificação como
exercı́cio às leitoras interessadas.
Exemplo 6.5. A transformação linear T : R2 → R3 tal que T (1, 0) = (2, 1, −3) e T (0, 1) =
(4, 1, 5) é a função definida pela expressão
T (a, b) = a(2, 1, −3) + b(4, 1, 5) = (2a + 4b, a + b, −3a + 5b)
que pode ser representada matricialmente por
 
2 4
a a
T = 1 1 
b b
−3 5
Claramente o exemplo anterior pode ser generalizado a qualquer transformação linear de
Rm para Rn e vemos assim que o Exemplo 6.2 (3) é na realidade exaustivo. Vamos agora ver
que em completa generalidade, desde que os espaços vetoriais envolvidos tenham dimensão
finita, uma transformação linear é determinada por uma matriz. Antes disso aproveitamos
para introduzir notação para as coordenadas de um vetor numa base ordenada.
Definição 6.6. Seja V um espaço vetorial, B = (v1 , . . . , vn ) uma base ordenada para V e
v = α1 v1 + . . . + αn vn um vetor de V . Escrevemos [v]B para a matriz coluna n × 1 cujas
componentes são as coordenadas de v (por ordem):
α1
 
[v]B =  ... 
αn
Uma base finita B com n elementos determina uma função f : V → Mn×1 (R) definida
por
f (v) = [v]B
que é uma bijeção (pela unicidade das coordenadas). Aliás é esta identificação que temos
usado, informalmente, para efetuar cálculos em espaços vetoriais de polinómios e matrizes.
Exercı́cio 6.7. Dado um espaço vetorial V e uma base B = (v1 , . . . , vn ) para V , verifique
que a função f : V → Mn×1 (R) definida por f (v) = [v]B é uma transformação linear.
Proposição 6.8. Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vm ) e B2 = (w1 , . . . , wn )
bases ordenadas para V e W respetivamente. Seja f : V → W uma transformação linear.
Então existe uma única matriz Af,B1 ,B2 ∈ Mm×n (R) tal que, para todo o vetor v ∈ V se
tem
[f (v)]B2 = Af,B1 ,B2 [v]B1
A matriz Af,B1 ,B2 diz-se a matriz que representa a transformação linear f com respeito
às bases B1 e B2 .
Exemplo 6.9. (i) Seja V um espaço vetorial com bases B1 = (v1 , . . . , vn ) e B2 =
(w1 , . . . , wn ) e Id : V → V a função identidade (definida por Id(v) = v). É ime-
diato verificar que Id é uma transformação linear. Temos então, por definição de
matriz mudança de base
AId,B1 ,B2 = SB1 →B2
De facto, a identidade
[Id(v)]B2 = AId,B1 ,B2 [v]B1 ⇔ [v]B2 = AId,B1 ,B2 [v]B1
mostra que AId,B1 ,B2 satisfaz a relação que caracteriza a matriz de mudança de coor-
denadas, e como tal (por unicidade), é a matriz de mudança de coordenadas SB1 →B2 .
(ii) Seja V o espaço vetorial dos polinómios de grau ≤ 3 e considere-se a transformação
linear T : V → V definida por T (p) = p0 . Uma vez que
T (a + bx + cx2 + dx3 ) = b + 2cx + 3dx2 ,
sendo B = (1, x, x2 , x3 ) a base canónica, a equação [T (p)]B = AT,B,B [p]B para a
matriz AT,B,B fica
   
b a
 2c   b 
 3d  = AT,B,B  c 
   
0 d
e conclui-se então que  
0 1 0 0
 0 0 2 0 
AT,B,B =
 0

0 0 3 
0 0 0 0
Vale a pena refletir durante um momento no facto de a matriz acima representar a
operação de derivação (embora no contexto restrito dos polinómios de grau menor ou
igual a 3).
Dem. da Proposição 6.8. Vejamos primeiro ver que se a matriz Af,B1 ,B2 existir, ela é única.
Para o i-ésimo vetor da base B1 , v = vi , a equação que caracteriza a matriz Af,B1 ,B2 é
[f (vi )] = Af,B1 ,B2 [vi ]B1
mas, uma vez que [vi ]B1 tem todas as entradas iguais a 0 exceto a i-ésima que é igual a
1, o produto no termo direito da equação acima é a i-ésima coluna da matriz Af,B1 ,B2 .
Isto mostra que a matriz Af,B1 ,B2 fica univocamente determinada: se existir, a sua i-ésima
coluna é necessariamente igual a [f (vi )]B2 .
Para completar a demonstração basta agora verificar que a matriz n × n cuja i-ésima
coluna é [f (vi )]B2 satisfaz a equação do enunciado. Seja v = α1 v1 + . . . + αn vn um vetor
de V . Então
[f (v)]B2 = [f (α1 v1 + . . . + αn vn )]B2
= [α1 f (v1 ) + . . . + αn f (vn )]B2
= α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
onde na segunda igualdade usámos o facto de f ser uma transformação linear e na terceira
o Exercı́cio 6.7. Pela definição do produto de matrizes a expressão
α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
é exatamente o produto da matriz que tem por i-ésima coluna [f (vi )]B2 pelo vetor col-
una com componentes (α1 , . . . , αn ), que por sua vez, é exatamente [v]B1 . Isto conclui a
demonstração.
A Proposição 6.8 permite identificar uma transformação linear entre espaços vetoriais
de dimensão finita com uma matriz mediante a escolha de bases para o espaço vetorial de
partida e de chegada. Além disso explica como obter a matriz em questão: é a matriz cuja
i-ésima coluna contém as coordenadas do i-ésimo vetor da base do espaço de partida na
base do espaço de chegada.
Isto é extremamente útil para fazer contas com transformações lineares como iremos ver
em seguida. Convém no entanto notar que a Proposição não se aplica a todos os exemplos
de transformação linear que queremos considerar - por exemplo, à operação de derivação.
Por outro lado, o objeto em que normalmente estamos interessados é a transformação
linear ela própria e não uma (das muitas possı́veis) representações matriciais que usamos
para calcular. Uma analogia que pode ser útil é que uma transformação linear é como
uma ideia, que se pode exprimir em várias lı́nguas, as bases nos espaços de partida e de
chegada são como uma escolha de lı́ngua, e a matriz que representa a transformação linear
é a palavra que representa a ideia na lı́ngua escolhida.
Vamos agora continuar o estudo das transformações lineares que se vai prolongar até ao
final do semestre.
Definição 6.10. Sejam V e W espaços vetoriais. Escrevemos L(V, W ) para o conjunto
das transformações lineares de V para W . Dadas f, g ∈ L(V, W ) e um escalar α definimos
a soma de f e g como sendo a função f + g : V → W definida pela expressão
(f + g)(v) = f (v) + g(v)
e definimos o produto de uma transformação linear f pelo escalar α como sendo a função
αf : V → W definida pela expressão
(αf )(v) = α · f (v).
Proposição 6.11. Sejam V e W espaços vetoriais. Com as operações de soma e produto
por escalar definidas acima, o conjunto L(V, W ) é um espaço vetorial.
Dem. Temos a verificar que as operações de soma e produto por escalar estão bem definidas,
isto é, que dadas f, g ∈ L(V, W ) e um escalar f , as funções f + g e αf estão ainda em
L(V, W ) e depois os oito axiomas que estas operações devem satisfazer num espaço vetorial.
Vemos primeiro que f + g é uma transformação linear: dados v1 , v2 ∈ V temos
(f + g)(v1 + v2 ) = f (v1 + v2 ) + g(v1 + v2 ) = f (v1 ) + f (v2 ) + g(v1 ) + g(v2 )
= f (v1 ) + g(v1 ) + f (v2 ) + g(v2 ) = (f + g)(v1 ) + (f + g)(v2 )
e dado um escalar α e v ∈ V temos
(f + g)(αv) = f (αv) + g(αv) = αf (v) + αg(v) = α(f (v) + g(v)) = α((f + g)(v))
A verificação que (αf ) ∈ L(V, W ) é análoga e fica como exercı́cio. A verificação dos
axiomas de espaço vetorial é também deixada como exercı́cio. Notamos apenas que o vetor
0 ∈ L(V, W ) é a transformação linear identicamente nula que envia todos os vetores v ∈ V

para 0 ∈ W .
Proposição 6.12. Sejam V, W, U espaços vetoriais e f : V → W , e g : W → U trans-
formações lineares. Então a função composta
g◦f: V →U
é uma transformação linear.
Dem. Temos a verificar que g ◦ f preserva a soma e o produto por escalar.
• Dados v1 , v2 ∈ V temos
(g◦f )(v1 +v2 ) = g(f (v1 +v2 )) = g(f (v1 )+f (v2 )) = g(f (v1 ))+g(f (v2 )) = (g◦f )(v1 )+(g◦f )(v2 )
onde na segunda igualdade usámos o facto de f ser uma transformação linear, e na
terceira, o facto de g ser uma transformação linear.
• Dados um escalar α e um vetor v ∈ V temos
(g ◦ f )(αv) = g(f (αv)) = g(αf (v)) = αg(f (v)) = α(g ◦ f )(v)
onde, tal como acima, na segunda igualdade usámos o facto de f ser uma trans-
formação linear, e na terceira, o facto de g ser uma transformação linear.

Proposição 6.13. Sejam V, W espaços vetoriais e f : V → W uma transformação linear.
Se a função f é invertı́vel (isto é, se é bijetiva) então a função inversa f −1 : W → V é
uma transformação linear.
Proof. Temos a verificar que a função inversa f −1 preserva a soma e a multiplicação por
escalar. Sejam w1 , w2 vetores de W . Como f é sobrejetiva existem vetores v1 e v2 de V
tais que f (v1 ) = w1 e f (v2 ) = w2 . Então
f −1 (w1 + w2 ) = f −1 (f (v1 ) + f (v2 )) = f −1 (f (v1 + v2 )) = (f −1 ◦ f )(v1 + v2 ) = v1 + v2
onde na segunda igualdade usámos o facto de f ser uma transformação linear. Por definição
de função inversa temos que v1 = f −1 (w1 ) e v2 = f −1 (w2 ). Substituindo na igualdade acima
concluı́mos que f −1 : W → V preserva a soma de vetores. A verificação que f −1 preserva
o produto por escalar é análoga e fica como exercı́cio.
Observação 6.14. Alternativamente, na demonstração anterior poderı́amos ter aplicado
a função injetiva (por hipótese) f às expressões f −1 (w1 + w2 ) e f −1 (w1 ) + f −1 (w2 ) e
verificado que essas contas produziam o mesmo resultado. A injetividade de f garante
então que f −1 (w1 + w2 ) = f −1 (w1 ) + f −1 (w2 ).
Definição 6.15. Sejam V, W espaços vetoriais. Uma transformação linear invertı́vel
f : V → W diz-se um isomorfismo de espaços vetoriais.
A palavra isomorfismo vem de ”iso” - igual - e ”morphos” - forma. Um isomorfismo
entre dois espaços vetoriais é uma equivalência entre eles. O isomorfismo estabelece uma
correspondência bijetiva entre os conjuntos subjacentes (um “dicionário” entre os vetores
de um dos espaços e os vetores do outro). Uma vez que a função e a sua inversa preservam
as operações dos espaços vetoriais ou, equivalentemente, as combinações lineares, qual-
quer propriedade ou afirmação acerca de um dos espaços (que se possa expressar usando
combinações lineares) será verdadeira se e só se for verdadeira no outro. Por exemplo um
conjunto será linearmente (in)dependente num espaço se e só se a sua imagem através do
isomorfismo for linearmente (in)dependente no outro. A verificação da afirmação anterior
assim como de outras do mesmo género ficará como exercı́cio na próxima Ficha para as
aulas práticas.
Exemplo 6.16. (i) As funções Mn×1 (R) → Rn e M1×n (R) → Rn definidas por
x1
 
 ...  7→ (x1 , . . . , xn )

e x1 · · · xn 7→ (x1 , . . . , xn )
xn
são isomorfismos de espaços vetoriais. De facto as funções descritas acima são clara-
mente bijetivas e também transformações lineares (pela definição de soma e produto
por escalar nos vários espaços envolvidos).
(ii) Seja V um espaço vetorial com base ordenada B = (v1 , . . . , vn ). A função f : V →
Mn×1 (R) definida por
f (v) = [v]B
que calcula a matriz coluna das coordenadas na base ordenada B é um isomor-
fismo. Que f é uma transformação linear é o conteúdo do Exercı́cio 6.7. A função
f é também bijetiva: a sobrejetividade de f traduz o facto que qualquer n-tuplo
(α1 , . . . , αn ) de escalares formar as coordenadas de um vetor de V (nomeadamente
de v = α1 v1 + . . . αn vn ), enquanto que a injetividade de f é uma consequència da
unicidade das coordenadas de um vetor (que por sua vez é uma consequência de B
ser um conjunto linearmente independente).
(iii) Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vn ), B2 = (w1 , . . . , wm ) bases ordenadas
para V e W respetivamente. A função
Φ : L(V, W ) → Mm×n (R)
definida por (ver Proposição 6.8 para o significado da notação)
Φ(f ) = Af,B1 ,B2
é um isomorfismo de espaços vetoriais. Portanto uma transformação linear entre
espaços vetoriais finitamente gerados pode ser identificada com uma matriz, uma vez
escolhidas bases ordenadas para o domı́nio e conjunto de chegada da transformação
linear.
Temos que verificar que Φ é uma transformação linear e que é invertı́vel (ou bije-
tiva) enquanto função.
• Sejam f, g : V → W transformações lineares. Dados v1 v2 ∈ V temos
(15) [(f + g)(v)]B2 = [f (v) + g(v)]B2 = [f (v)]B2 + [g(v)]B2
onde na primeira igualdade usámos a definição de soma de transformações lin-

eares e na segunda o facto que a operação de calcular as coordenadas é linear
(algo que usámos também no ponto (ii) acima). Por definição das matrizes que
representam f, g, e pela distributividade em relação à soma do produto de ma-
trizes obtemos
(16) [f (v)]B2 + [g(v)]B2 = Af,B1 ,B2 [v]B1 + Ag,B1 ,B2 [v]B1 = (Af,B1 ,B2 + Ag,B1 ,B2 )[v]B1
Das igualdades (15) e (16) obtemos, novamente por definição da matriz que
representa (f + g),
Af +g,B1 ,B2 = Af,B1 ,B2 + Ag,B1 ,B2
ou seja
Φ(f + g) = Φ(f ) + Φ(g)
A demonstração que Φ(αf ) = αΦ(f ) é análoga e fica como exercı́cio. Concluı́mos
que Φ é uma transformação linear.
• Recorde-se da demonstração da Proposição 6.8 que a matriz Φ(f ) tem como i-
ésima coluna [f (vi )]B2 . Dada uma matriz A, pela Proposição 6.3 e o exemplo
(ii) acima existe uma transformação linear f tal que [f (vi )]B2 é a i-ésima coluna
de A. Temos então Φ(f ) = A, o que mostra que Φ é sobrejetiva. Por outro lado,
suponhamos que f e g são transformações lineares tais que Φ(f ) = Φ(g) então,
para cada i = 1, . . . , n, as coordenadas de f (vi ) e g(vi ) são iguais. Mas isto
significa que f (vi ) = g(vi ) para cada i, e então pela Proposição 6.3 temos que
f = g. Isto mostra que Φ é uma função injetiva e portanto, dado que também é
sobrejetiva, invertı́vel.
Conclui-se que Φ é um isomorfismo de espaços vetoriais.
Os exemplos anteriores dizem-nos que qualquer espaço vetorial real finitamente gerado
é equivalente a Rn e que uma transformação linear entre tais espaços pode ser identificada
com uma matriz. Estes factos são muito úteis para fazer contas. Já foram usados muitas
vezes e continuarão a ser usados até ao final do semestre para esse efeito. No entanto não
seria uma boa ideia concluir daqui que nos podemos concentrar exclusivamente em Rn e
nas matrizes. Apesar de ser possı́vel identificar um espaço finitamente gerado com algum
Rn não há em geral nenhuma maneira canónica de o fazer. A identificação é feita através
de uma escolha de base e há muitas escolhas possı́veis. Um espaço vetorial geral não possui
coordenadas especiais (ao contrário do que acontece em Rn e em vários outros exemplos
que temos vindo a considerar como os espaços de matrizes) e esta é uma diferença muito
importante. Veremos em breve que as soluções de certas equações diferenciais formam
espaços vetoriais nos quais não há habitualmente qualquer “base canónica”.
Proposição 6.17. Sejam V, W, U espaços vetoriais, B1 , B2 , B3 bases ordenadas para V, W, U
respetivamente, e f : V → W , g : W → U transformações lineares. Então a matriz que
representa a transformação linear g◦f nas bases dadas é o produto da matriz que representa
g pela matriz que representa f . Isto é,
Ag◦f,B1 ,B3 = Ag,B2 ,B3 Af,B1 ,B2
Dem. Dado v ∈ V temos pela definição das matrizes que representam f e g

[(g ◦ f )(v)]B3 = [g(f (v))]B3 = Ag,B2 ,B3 [f (v)]B2
= Ag,B2 ,B3 (Af,B1 ,B2 [v]B1 ) = (Ag,B2 ,B3 Af,B1 ,B2 )[v]B1
donde, pela unicidade da matriz que representa g ◦ f conclui-se que
Ag◦f,B1 ,B3 = Ag,B2 ,B3 Af,B1 ,B2
conforme pretendido.
Esta proposição explica a associatividade do produto de matrizes: o produto de matrizes
é a tradução através dos isomorfismos do Exemplo 6.16(iii) da composição de funções, que
é uma operação associativa.
Observação 6.18. É possı́vel pensar visualmente na correspondência entre transformações
lineares e matrizes, e em particular na Proposição anterior da seguinte forma. Considere-
se o diagrama
f
V W
(17) [·]B1 ∼
= [·]B2 ∼
=
Af,B1 ,B2
Mn×1 (R) Mm×1 (R)
onde as setas representam transformações lineares com domı́nio a origem da seta e conjunto
de chegada o término da seta. As setas pretendem representar visualmente que os vetores
do espaço da origem são “transportados” pela transformação linear do seu domı́nio até
ao espaço vetorial de chegada. O sı́mbolo ∼ = designa isomorfismo e os isomorfismos no
diagrama acima são os do Exemplo 6.16(ii) que calculam a matriz coluna das coordenadas,
ou seja, v 7→ [v]B1 para a seta da esquerda e w 7→ [w]B2 para a seta da direita. A equação
(18) [f (v)]B2 = Af,B1 ,B2 [v]B1
diz que se obtém o mesmo resultado quando se faz um vetor v ∈ V seguir os dois possı́veis
trajetos do canto superior esquerdo até ao canto inferior direito em (17): do lado esquerdo
de (18) temos o efeito de seguir primeiro a seta de cima e depois a seta da direita; do lado
direito de (18) segue-se primeiro a seta da esquerda e depois a de baixo.
Quando independentemente do caminho seguido entre dois nós do diagrama se obtém
sempre o mesmo resultado diz-se que o diagrama é comutativo. Portanto a equação (18)
traduz a comutatividade de (17).
Nestes termos, a Proposição 6.17 traduz a comutatividade do retângulo exterior no
seguinte diagrama
f g
V W U
[·]B1 ∼
= [·]B2 ∼
= [·]B3 ∼
=
Af,B1 ,B2 Ag,B2 ,B3
Mn×1 (R) Mm×1 (R) Mp×1 (R)
que é claramente uma consequência da comutatividade dos dois quadrados.
Corolário 6.19. Sejam V, W espaços vetoriais, f : V → W uma transformação linear

invertı́vel e B1 , B2 bases para V e W respetivamente. Então Af −1 ,B2 ,B1 = (Af,B1 ,B2 )−1 .
Dem. Uma vez que f ◦ f −1 = IdW e f −1 ◦ f = IdV , e que a matriz que representa a
transformação linear identidade com respeito a uma mesma base num espaço vetorial é a
matriz identidade, pela Proposição anterior temos
Af,B1 ,B2 Af −1 ,B2 ,B1 = I Af −1 ,B2 ,B1 Af,B1 ,B2 = I
(onde I designa a matriz identidade).
7. Subespaços associados a uma transformação linear

Definição 7.1. Seja f : V → W uma transformação linear. O núcleo de f é o conjunto
N (f ) = {v ∈ V : f (v) = 0}
e a imagem de f é o conjunto
f (V ) = {f (v) : v ∈ V } ⊂ W
Proposição 7.2. Seja f : V → W uma transformação linear. Então N (f ) é um subespaço
vetorial de V e f (V ) é um subespaço vetorial de W .
Dem. Uma vez que f (0) = 0 temos que 0 ∈ N (f ) e 0 ∈ f (V ) pelo que estes conjuntos são
não vazios. Vejamos que N (f ) é um subespaço vetorial:
• Sendo v1 , v2 ∈ N (f ) temos f (v1 +v2 ) = f (v1 )+f (v2 ) = 0+0 = 0 logo v1 +v2 ∈ N (f ).
• Sendo α um escalar e v ∈ N (f ) temos f (αv) = αf (v) = α0 = 0 logo αv ∈ N (f ).
Quanto a f (V ):
• Dados w1 , w2 ∈ f (V ), existem v1 , v2 ∈ V tais que f (v1 ) = w1 e f (v2 ) = w2 . Então
f (v1 + v2 ) = w1 + w2 logo w1 + w2 ∈ f (V ).
• Dado um escalar α e w = f (v) ∈ f (V ) temos αw = f (αv) ∈ f (V ).

Por definição de sobrejetividade, uma transformação linear é sobrejetiva se e só se f (V ) =
W . A injetividade de f pode ser determinada em termos do núcleo como explica o seguinte
resultado.
Proposição 7.3. Uma transformação linear f : V → W é injetiva se e só se N (f ) = {0}.
Dem. Suponhamos que f é injetiva. Se v ∈ N (f ) então f (v) = 0 = f (0). Uma vez que f
é injetiva conclui-se que v = 0, logo N (f ) = {0}.
Suponhamos agora que N (f ) = {0}. Então se f (v1 ) = f (v2 ) temos f (v1 − v2 ) = 0 e
portanto v1 − v2 ∈ N (f ) = {0}, ou seja, v1 = v2 .
A Proposição anterior pode ser vista como mais uma manifestação do “bom comporta-
mento” das transformações lineares. A condição N (f ) = {0} é equivalente (uma vez que
f (0) = 0) à proposição
f (x) = f (0) ⇒ x = 0
que é um caso particular da condição geral de injetividade

f (x) = f (y) ⇒ x = y.
A Proposição 7.3 diz que, quando uma função é linear, para verificar a condição de inje-
tividade podemos assumir que um dos elementos do domı́nio é 0. Se for verdade nesse caso
particular então é verdade em geral.
É natural perguntar a que correspondem o núcleo e a imagem de uma transformação
linear em termos de coordenadas, ou seja através do “dicionário” descrito no diagrama
(17). Quanto ao núcleo, temos
v ∈ N (f ) ⇔ f (v) = 0 ⇔ [f (v)]B2 = 0
uma vez que um vetor é nulo se e só se as suas coordenadas numa base são todas nulas.
Por (18) isto acontece se e só se
Af,B1 ,B2 [v]B1 = 0
ou seja, se o vetor de Rn formado pelas coordenadas de v pertence ao núcleo da matriz
Af,B1 ,B2 que representa a transformação linear f . Assim, não muito surpreendentemente,
em coordenadas, o núcleo de uma transformação linear corresponde ao núcleo da matriz
que representa a transformação linear.
Quanto à imagem de f , a sua tradução em coordenadas é o conjunto
{[f (v)]B2 : v ∈ V } ⊂ Mm×1 (R)
Novamente por (18) temos que este conjunto é igual a
{Af,B1 ,B2 [v]B1 : v ∈ V }
Mas sendo v um vector arbitrário de V , a sua matriz coluna de coordenadas é uma matriz
arbitrária em Mn×1 (R) e portanto este conjunto não é mais do que o espaço das colunas
da matriz Af,B1 ,B2 . Ou seja, em coordenadas, a imagem de uma transformação linear f é
o espaço das colunas da matriz que representa f .
Chegamos agora a um dos resultados básicos da Álgebra Linear, cuja importância se irá
tornando clara com o desenrolar do semestre.
Teorema 7.4. Seja V um espaço vetorial finitamente gerado, W um espaço vetorial e
f : V → W uma transformação linear. Então
dim N (f ) + dim f (V ) = dim V
Dem. Seja {v1 , . . . , vk } uma base para o subespaço N (f ) ⊂ V (que é finitamente gerado
porque V é). Pela Proposição 4.4(iii) podemos completar este conjunto com um número
finito de vetores distintos {vk+1 . . . , vn } de tal forma que {v1 , . . . , vn } seja uma base para
V . Vamos verificar que {f (vk+1 ), . . . , f (vn )} é uma base de f (V ). Teremos então
dim N (f ) = k, dim f (V ) = n − k, dim V = n
o que verifica a afirmação do enunciado.
• {f (vk+1 ), . . . , f (vn )} gera V : Seja w um vetor em f (V ). Então existe v ∈ V tal que

f (v) = w. Uma vez que {v1 , . . . , vn } é uma base, existem escalares α1 , . . . , αn tais
que v = α1 v1 + . . . + αn vn . Então
f (α1 v1 + . . . + αk vk + αk+1 vk+1 + . . . + αn vn ) = f (α1 v1 + . . . + αk vk ) + αk+1 f (vk ) + . . . + αn f (vn )
= 0 + αk+1 f (vk ) + . . . + αn f (vn )
onde na segunda igualdade usámos o facto de o vetor α1 v1 + . . . + αk vk pertencer
ao núcleo de f . A expressão acima mostra que w é uma combinação linear de
f (vk+1 ), . . . , f (vn ) pelo que estes vetores geram f (V ).
• {f (vk+1 ), . . . , f (vn )} é linearmente independente: Suponhamos que β1 , . . . , βn−k são
escalares tais que
β1 f (vk+1 ) + . . . + βn−k f (vn ) = 0
Então f (β1 vk+1 + . . . + βn−k vn ) = 0, logo β1 vk+1 + . . . + βn−k vn ∈ N (f ). Portanto
existem escalares α1 , . . . , αk tais que α1 v1 + . . . + αk vk = β1 vk+1 + . . . + βn−k vn ou
seja tais que
α1 v1 + . . . + αk vk − β1 vk+1 − . . . − βn−k vn = 0
Uma vez que {v1 , . . . , vn } é uma base de V tal só pode acontecer se α1 = . . . =
αk = −β1 = . . . = −βn−k = 0. Conclui-se que β1 = · · · = βn−k = 0 e portanto que
{f (vk+1 ), . . . , f (vn )} é linearmente independente.

Definição 7.5. Sendo V um espaço finitamente gerado, W um espaço vetorial e f : V →
W uma transformação linear, o número dim f (V ) chama-se a caracterı́stica da trans-
formação linear f (rank em inglês) e o número dim N (f ) chama-se a nulidade de f (nullity
em inglês).
O Teorema 7.4 é conhecido em inglês por “the rank-nullity Theorem”. Tem o seguinte
corolário extremamente útil:
Corolário 7.6. Sejam V e W espaços vetoriais finitamente gerados com a mesma di-
mensão e seja f : V → W uma transformação linear. Então as seguintes afirmações são
equivalentes
(i) f é invertı́vel (isto é, f é bijetiva).
(ii) f é injetiva (equivalentemente, N (f ) = {0}).
(iii) f é sobrejetiva (isto é, f (V ) = W ).
Dem. É claro que a afirmação (i) implica as afirmações (ii) e (iii), e, por definição (ii)
juntamente com (iii) implicam (i). Para demonstrar a equivalência das afirmações basta
assim ver que quando (ii) se verifica, (iii) também se verifica e vice-versa.
Suponhamos que f é injetiva. Então dim N (f ) = 0 e portanto pelo Teorema 7.4 e a
hipótese sobre a dimensão dos espaços V e W temos
dim f (V ) = dim V = dim W
Ou seja f (V ) é um subespaço de W com a mesma dimensão que W . Então temos nec-

essariamente f (V ) = W (por exemplo, pelo Corolário 4.10(i)) e portanto f é também
sobrejetiva.
Suponhamos agora que f é sobrejetiva, ou seja que dim f (V ) = dim W . Aplicando o
Teorema 7.4 e a hipótese dim V = dim W temos
dim f (V ) + dim N (f ) = dim V ⇔ dim V + dim N (f ) = dim V ⇔ dim N (f ) = 0
logo N (f ) = {0} e portanto, pela Proposição 7.3, f é injetiva.
Em vista da interpretação da imagem de uma transformação linear f como o espaço das
colunas da matriz que a representa, o Teorema 7.4 tem a seguinte consequência importante
(que está longe de ser óbvia!).4
Proposição 7.7. Seja A uma matriz m × n. Então o espaço das linhas e o espaço das
colunas de A têm a mesma dimensão (que é a caracterı́stica de A). Isto é,
dim EC(A) = dim EL(A) = caracterı́stica de A
Proof. A dimensão do espaço das linhas é o número de pivots da matriz A após aplicação
do método de Gauss, enquanto que a dimensão do núcleo de A é o número de variáveis
livres no sistema homogéneo associado a A, ou seja, o número de colunas de A sem pivot.
Isto significa que
dim EL(A) = n − dim N (A)
Por outro lado, no caso da transformação linear f : Mn×1 (R) → Mm×1 (R) definida por
f (x) = Ax, o Teorema 7.4 diz que
dim EC(A) + dim N (A) = n ⇔ dim EC(A) = n − dim N (A)
Conclui-se portanto que dim EC(A) = dim EL(A) e este número é a caracterı́stica de
A.
A Proposição anterior justifica também a atribuição do nome “caracterı́stica” de f à
dimensão de f (V ). Podemos agora aproveitar para atualizar os nossos critérios para a
invertibilidade de uma matriz (comparem com o Teorema 2.23)
Proposição 7.8. Seja A uma matriz n×n. Então as seguintes afirmações são equivalentes
(i) A é invertı́vel.
(ii) A caracterı́stica de A é n (equivalentemente dim EL(A) = n).
(iii) Para cada matriz b ∈ Mn×1 (R) a equação Ax = b tem solução única (equivalente-
mente, a função x 7→ Ax é bijetiva).
(iv) N (A) = 0
(v) EC(A) = Rn
(vi) Existe B ∈ Mn×n (R) tal que AB = In
(vii) Existe B ∈ Mn×n (R) tal que BA = In
4Para uma explicação conceptual desta igualdade que é independente da nossa discussão inicial dos
sistemas lineares e do método de Gauss ver o último exercı́cio da Ficha 9.
Dem. A equivalência das primeiras três afirmações foi já vista no Teorema 2.23 embora
a equivalência de (i) com (iii) possa agora ser interpretada conceptualmente como uma
consequência da Proposição 6.13 e Corolário 6.19. A equivalência de (iii), (iv) e (v) é uma
consequência do Corolário 7.6 e da interpretação do núcleo e espaço das colunas da matriz
como núcleo e imagem da transformação linear associada.
É claro da definição de invertibilidade que (i) ⇒ (vi) e (vii). Reciprocamente se existe B
tal que AB = In então o espaço das colunas de A contém as colunas da matriz identidade,
e portanto EC(A) = Rn , que é a condição (v). Por outro lado se existe B tal que BA = In
então dado x ∈ N (A) temos x = In x = BAx = B0 = 0 pelo que N (A) = {0} que
é a condição (iv). Vemos assim que (vi) e (vii) são também equivalentes às restantes
condições.
Exemplo 7.9 (Significado geométrico dos pivots). Suponhamos que A é uma matriz m×n.
Associada a esta matriz está um plano em Rn contendo a origem - o espaço das linhas
EL(A) - que tem uma certa dimensão k ≤ n a que se chama a caracterı́stica da matriz A.
Quando aplicamos o método de eliminação de Gauss à matriz, o plano determinado pelas
linhas das sucessivas matrizes permanece sempre o mesmo e no final do método obtemos
uma matriz em escada de linhas cujas linhas formam uma base para EL(A).
Apesar de a matriz obtida no final do método de Gauss não ser única (há alguma indeter-
minação na aplicação do método), há certas caracterı́sticas comuns a todas estas matrizes
como por exemplo a localização dos pivots (isto é parte do conteúdo do Teorema 1.12).
Vamos ver qual é a explicação geométrica para este facto começando por alguns exemplos
simples.
Consideremos primeiro o caso em que m = 1 e n = 3. Temos portanto que

A= a b c
e que EL(A) é uma linha em R3 (vamos ignorar o caso trivial em que a = b = c = 0).
Neste caso a matriz A já está em escada de linhas e há três possibilidades: o pivot pode
estar na primeira, segunda ou terceira entrada da matriz.
o
1 caso: Se o pivot está na primeira posição isto significa que a projeção da linha no eixo
dos xx produz todo o eixo dos xx.
o
2 caso: Se o pivot está na segunda posição isto significa que a projeção da linha no eixo
dos xx é nula, ou seja que a linha está contida no plano yz, e que a projeção desta
linha no eixo dos yy não é nula (i.e. a linha não coincide com o eixo dos zz).
3o caso: Se o pivot está na terceira posição então a linha é o eixo dos zz.
Em seguida consideremos o caso em que m = 2 e n = 3. Então

a b c
A=
d e f
Se a caracterı́stica de A for menor ou igual a 1 o espaço EL(A) é uma linha ou um ponto e
já vimos o que acontece. Suponhamos portanto que a caracterı́stica de A é 2. Há novamente
três casos a considerar para a matriz em escada de linhas resultante do método de Gauss:
os dois pivots estão ou nas entradas 11 e 22 da matriz, ou 11 e 23 ou 21 e 32.
1o caso: Os pivots estão nas entradas 11 e 22: Isto significa que a projecão do plano EL(A)
no eixo dos xx é todo o eixo dos xx e que a projeção de EL(A) no plano xy é todo
o plano xy (ou seja que o plano é o gráfico de uma função sobre o plano xy).
o
2 caso: Os pivots estão nas entradas 11 e 32. Isto significa que a projeção de EL(A) no
eixo xx é todo o eixo xx mas a projeção no plano xy é apenas uma linha (gerada
pela projeção em xy do vetor que aparece na primeira linha da matriz, projeção
esta que não pertence ao eixo dos yy). Assim, EL(A) é um plano vertical contendo
o eixo dos zz, que não é o plano yz.
3o caso: Os pivots estão nas entradas 21 e 32. Neste caso, a projeção do plano EL(A) no
eixo dos xx é apenas a origem, o que significa que EL(A) é o plano yz.
Em geral, a posição dos pivots dá-nos informação sobre a posição do plano EL(A)
relativamente aos planos coordenados. Sendo j ≤ n e
πj : Rn → Rj
a projeção no plano (x1 , . . . , xj ) definida por πj (x1 , . . . , xn ) = (x1 , . . . , xj ), podemos asso-
ciar a A uma função crescente
d
{1, . . . , n} →
− {0, 1, . . . , k}
(onde k é a caraterı́stica de A) definida por
d(j) = dim πj (EL(A))
Ou seja, d(j) é a dimensão da projeção de EL(A) no plano (x1 , . . . , xj ) ou, alternati-
vamente, a dimensão do espaço das linhas da matriz m × j que se obtém esquecendo as
últimas n − j colunas de A. Temos assim d(1) = 0 ou 1 e d(n) = k.
Os pivots ocorrem exatamente nas colunas em que a função d(j) “salta”, isto é, na
primeira coluna ou nas colunas j > 1 para as quais d(j) > d(j − 1).
Finalmente, note-se que a projeção do plano EL(A) no plano Rk determinado pelas
variáveis correspondentes às colunas em que ocorrem pivots é um isomorfismo de espaços
vetoriais. Isto significa que EL(A) é o gráfico de uma função sobre esse plano. Fica como
exercı́cio para as alunas interessadas a verificação que a transformação linear de Rk para
Rn−k cujo gráfico é EL(A) é determinada (nas bases canónicas) pela matriz m × (n − k)
que se obtém da matriz em escada de linhas reduzida obtida de A no final do método do
Gauss-Jordan considerando apenas as colunas sem pivot.
Vejamos agora alguns exemplos práticos de aplicação dos últimos resultados.
Exemplo 7.10 (Exercı́cio 7 da Ficha 8). Vamos achar uma base para o núcleo e a imagem
da transformação linear
f : M2×2 (R) → M2×2 (R)
definida por

1 1 1 1
f (A) = A−A
0 1 0 1
Escrevendo
a b
A=
c d
obtemos
a+c b+d a a+b c d−a
f (A) = − =
c d c c+d 0 −c
Conclui-se que N (f ) é definido pelas equações c = 0, d − a = 0 ou seja que

a b
N (f ) = : a, b ∈ R
0 a
Uma vez que
a b 1 0 0 1
=a +b
0 a 0 1 0 0
vemos que uma base para N (f ) é

1 0 0 1
,
0 1 0 0
O Teorema 7.4 diz-nos já que a imagem de f terá dimensão
dim M2×2 (R) − dim N (f ) = 4 − 2 = 2
pelo que para achar uma base para a imagem só precisamos de dois vetores não colineares
em f (M2×2 (R)).
Neste exemplo é também fácil achar a base diretamente, sem recorrer a este atalho. A
expressão acima para f (A) diz-nos que a imagem de f é formada pelas matrizes da forma

α β 1 0 0 1
=α +β
0 −α 0 −1 0 0
com α, β in R. Assim uma base para a imagem de f é

1 0 0 1
,
0 −1 0 0
Exemplo 7.11 (Exercı́cio 8 da Ficha 8). Seja V um espaço vetorial de dimensão finita
com base ordenada B1 e f : V → V uma transformação linear representada na base B1 pela
matriz A. Sendo S = SB1 →B2 a matriz de mudança de coordenadas da base B1 para outra
base B2 vejamos qual é a fórmula para a matriz que representa f na base B2 em termos
das matrizes A e S.
Queremos a matriz B = Af,B2 ,B2 tal que para todo o vetor v ∈ V se tem
[f (v)]B2 = B[v]B2
e sabemos que
[f (v)]B1 = A[v]B1 e [v]B2 = S[v]B1 para quaisquer v
Então
[f (v)]B2 = S[f (v)]B1 = SA[v]B1 = SAS −1 [v]B2
A unicidade da matriz B diz-nos então que

(19) B = SAS −1
Vamos aproveitar a fórmula acima para calcular a matriz que representa a transformação
linear f : R3 → R3 definida por
f (x, y, z) = (x − 2y, x + z, y + z)
relativamente à base ordenada B = ((1, 0, 1), (0, 1, 1), (−1, 0, 1)) de R3 . Na base canónica
temos     
x − 2y 1 −2 0 x
 x + z  =  1 0 1  y 
y+z 0 1 1 z
A matriz de mudança de coordenadas que se pode obter imediatamente é SB→Bcan uma vez
que esta tem como colunas as coordenadas dos vetores de B na base canónica:
 
1 0 −1
SB→Bcan =  0 1 0 
1 1 1
Conclui-se assim que a matriz que representa f com respeito à base B é
 −1     
1 0 −1 1 −2 0 1 0 −1 0 − 21 0
 0 1 0   1 0 1  0 1 0 = 2 1 0 
1 1 1 0 1 1 1 1 1 −1 32 1
Alternativamente poderı́amos ter calculado esta matriz diretamente achando as coordenadas
da imagem por f dos elementos da base B na própria base B (são estas as colunas da matriz
que acabámos de obter).
2 −1 1 1
Finalmente vejamos se é possı́vel que as matrizes e representem
−1 0 2 2
a mesma transformação linear f : V → W (com respeito a algumas bases de V e W ).
Note-se que simplesmente pelo facto de se tratar de matrizes 2 × 2 sabemos que V e W
têm dimensão 2 (os vetores de V e W têm duas coordenadas).
Se duas matrizes representam a transformação linear elas são “a mesma coisa com
nomes diferentes” (formalmente uma obtém-se da outra através da fórmula (19) - diz-se
que são matrizes semelhantes). Ora a primeira matriz tem caraterı́stica 2 enquanto que a
segunda tem caraterı́stica 1. Isto significa que qualquer transformação linear representada
pela primeira matriz é um isomorfismo, enquanto que qualquer transformação representada
pela segunda não é injetiva nem sobrejetiva (tanto o núcleo como a imagem têm dimensão
1). As matrizes não podem portanto representar a mesma transformação linear.
Exemplo 7.12 (Exercı́cio 5(a) da Ficha 8). Seja f : R7 → R4 uma transformação linear.
Quais são os possı́veis valores para (dim N (f ), dim f (R7 ))? Como f (R7 ) é um subespaço
de R4 , a sua dimensão está entre 0 e 4. Uma vez que
dim N (f ) + dim f (R7 ) = 7
vemos que N (f ) tem dimensão entre 3 e 7. Assim que

(dim N (f ), dim f (R7 )) ∈ {(7, 0), (6, 1), (5, 2), (4, 3), (3, 4)}
Todos estes valores são possı́veis. O primeiro par é o valor correspondente à transformação
linear nula enquanto que os outros correspondem, por exemplo, às projeções πj (x1 , . . . , x7 ) =
(x1 , . . . xj ) com j = 1, . . . , 4.
Exemplo 7.13 (Exercı́cio 12(b) da Ficha 8). O dual de um espaço vetorial real é o espaço
vetorial V ∗ = L(V, R) das transformações lineares de V para R que se chamam normal-
mente funcionais lineares. Já vimos muitos exemplos de elementos do dual de um espaço.
Por exemplo, se V é o espaço vetorial dos polinómios reais as funções φ e ψ definidas por
φ(p) = p(0), ψ(p) = p0 (1)
são elementos de V ∗ . Muito em breve definirão em Cálculo 1 o integral de uma função
contı́nua e então sendo V o espaço vetorial das funções contı́nuas [0, 1] → R temos que
ˆ 1
f 7→ f (x)dx
0
é um elemento do dual de V .
Outros exemplos importantes são as funções coordenadas. Se B = (v1 , . . . , vn ) é uma
base para V então a função
ϕi : V → R
definida por
ϕi (α1 v1 + . . . + αn vn ) = αi
é, como é imediato verificar, um elemento de V ∗ . Note-se que ϕi não é mais do que a função
que calcula a i-ésima coordenada de V na base B, isto é a i-ésima função coordenada.
Vamos verificar que B ∗ = (ϕ1 , . . . , ϕn ) são uma base de V ∗ que se chama a base dual de
B.
Temos a verificar que os elementos de B ∗ são linearmente independentes e geram V ∗ .
Sejam α1 , . . . , αn escalares tais que
α1 ϕ1 + . . . + αn ϕn = 0
Avaliando o termo esquerdo da expressão anterior no i-ésimo elemento vi da base B, e
dado que (
1 se i = j
ϕi (vj ) =
0 se i 6= j
obtemos
α1 ϕ1 (vi ) + . . . + αn ϕn (vi ) = 0 + . . . + 0 + αi + 0 + . . . + 0 = αi
pelo que αi = 0. Como isto é verdade para todo o i conclui-se que α1 = · · · = αn = 0, ou
seja que os elementos de B ∗ são linearmente independentes.
Par ver que B ∗ gera V ∗ , seja ϕ ∈ V ∗ um elemento qualquer. Queremos resolver a
equação
α1 ϕ1 + . . . + αn ϕn = ϕ
Avaliando o termo esquerdo da equação anterior no elemento vi da base obtemos

0 + . . . + 0 + αi ϕi (vi ) + 0 + . . . + 0 = ϕ(vi )
logo αi é necessariamente igual a ϕ(vi ). Para esta escolha de coeficientes, os elementos
α1 ϕ1 + . . . + αn ϕn e ϕ de V ∗ tomam os mesmos valores na base B e portanto coincidem.
Conclui-se assim que B ∗ é um conjunto gerador e portanto uma base.
Note-se a expressão engraçada para exprimir um funcional ϕ qualquer em função desta
base:
ϕ = ϕ(v1 )ϕ1 + . . . + ϕ(vn )ϕn
8. Equações lineares
Definição 8.1. Uma equação linear é uma equação da forma
f (x) = w
onde f : V → W é uma transformação linear, w é um vetor de W e a incógnita x é um
vetor de V a determinar. A equação diz-se homogénea quando w = 0.
É claro que uma equação linear tem solução se e só e w ∈ f (V ). O conjunto das soluções
é controlado pelo núcleo de f no seguinte sentido.
Proposição 8.2 (Princı́pio da sobreposição). Seja f : V → W uma transformação linear.
Se v é uma solução da equação linear f (v) = w, o conjunto de todas as soluções é
v + N (f ) = {v + z : z ∈ N (f )} ⊂ V
Dem. Se v é uma solução e z ∈ N (f ) temos que f (v + z) = f (v) + f (z) = w + 0 = w logo
v + z é uma solução. Assim
v + N (f ) ⊂ {u ∈ V : f (u) = w}
Reciprocamente, seja u uma solução qualquer da equação. Então u = v + (u − v) e
f (u − v) = f (u) − f (v) = w − w = 0 pelo que u − v ∈ N (f ) e portanto u ∈ v + N (f ).
Conclui-se que
{u ∈ V : f (u) = w} ⊂ v + N (f )
o que termina a demonstração.
Geometricamente, o resultado anterior diz que o conjunto das soluções é o “plano”
paralelo a N (f ) (que é um “plano” em V contendo a origem) que passa por uma solução
particular qualquer da equação.
É costume enunciar o resultado da Proposição 8.2 da seguinte forma;
A solução geral de uma equação linear é dada por uma solução particular
da equação mais a solução geral da equação homogénea.
Por uma solução particular entende-se uma qualquer solução v fixada para a equação. Por
solução geral entende-se o conjunto das soluções. Assim a afirmação acima diz apenas
que o conjunto das soluções de uma equação linear é obtido somando todas as soluções da
equação homogénea a uma qualquer solução da equação que consigamos determinar.
Exemplo 8.3 (O oscilador harmónico). Seja x : R → R uma função que descreve a posição
de uma partı́cula presa a uma mola em função do tempo. A partı́cula é atuada unicamente
pela força exercida pela extensão ou contração da mola, que é proporcional ao deslocamento
da mola em relação à sua posição de repouso. Assumindo que 0 é a coordenada da posição
de repouso, a equação de Newton diz-nos que
(20) x00 (t) + kx(t) = 0
onde k é uma constante positiva determinada pelas caracterı́sticas fı́sicas da mola e a massa
da partı́cula (recorde que x00 é a aceleração e note que a força exercida pela mola, mx00 tem
o sentido contrário ao deslocamento x). Para simplificar as contas vamos assumir a partir
de agora que k = 1.
Sendo V ⊂ F (R, R) o subespaço vetorial formado pelas funções duas vezes diferenciáveis
e T a transformação linear
T : V → F (R, R)
definida pela expressão
T (x) = x00 + x
vemos que o núcleo de T é exatamente o conjunto das soluções de (20) (com k = 1) que
formam portanto um subespaço vetorial de V .
É fácil adivinhar duas soluções para a equação
(21) x00 + x = 0
pois claramente x(t) = cos t e x(t) = sen t são soluções. Como o conjunto das soluções é
um espaço vetorial temos mais geralmente que
(22) x(t) = α1 cos t + α2 sen t, com α1 , α2 ∈ R
são soluções.
Para o ano que vem irão aprender que uma solução de uma equação diferencial como
(20) é completamente determinada por x(0) e x0 (0) (fisicamente isto diz que a evolução da
posição da partı́cula é completamente determinada pela sua posição e velocidade iniciais).
Assim o conjunto das soluções é um espaço vetorial de dimensão 2 (um vetor é determinado
por dois números reais) e portanto a fórmula (22) descreve a solução geral da equação (21).
No caso da equação (21) podemos verificar a afirmação anterior diretamente recorrendo
à conservação da energia. Definindo a quantidade
E(t) = (x0 )2 + x2
(correspondendo à soma das energia cinética e potencial) temos
dE
= 2x0 x00 + 2xx0 = 2x0 (−x) + 2xx0 = 0
dt
logo a quantidade (x0 )2 + x2 é conservada ao longo do tempo para qualquer solução da
equação diferencial (21). Em particular se x(t) for uma solução com x(0) = x0 (0) = 0
teremos (x0 (t))2 + x(t)2 = 0 para todo o t e portanto x(t) = 0.
Isto permite-nos concluir que os valores de x(0) e x0 (0) determinam completamente a
solução x(t) para todo o t: se x(t) e y(t) forem soluções de (21) com x(0) = y(0) e
x0 (0) = y 0 (0) então u(t) = x(t) − y(t) é também uma solução de (21) (porque se trata
de uma equação linear!) que satisfaz u(0) = u0 (0) = 0. Mas então u(t) = 0 e portanto
x(t) = y(t).
É agora imediato verificar que as soluções (22) permitem atribuir valores arbitrários a
x(0) e x0 (0) mediante variação dos coeficientes α1 e α2 (na realidade α1 = x(0) e α2 =
x0 (0)) e portanto descrevem todas as soluções de (21).
Suponhamos agora que queremos resolver a equação5
(23) x00 + x = t3
Trata-se agora de uma equação linear não homogénea. Não é no entanto difı́cil descobrir
uma solução particular desta equação tentando encontrar um polinómio que a satisfaça.
Se o fizer irá ver que o único polinómio que satisfaz esta equação é
x(t) = t3 − 6t
A Proposição 8.2 diz-nos então que a solução geral da equação (23) é
x(t) = t3 − 6t + α1 cos t + α2 sen t, com α1 , α2 ∈ R.
9. Valores e vetores próprios

O nosso objetivo para uma boa parte do que resta do semestre é estudar com mais detalhe
transformações lineares de um espaço vetorial nele próprio, isto é transformações lineares
f : V → V onde V é um espaço vetorial. Neste caso há certas questões que podemos
colocar que não fariam sentido para uma transformação linear arbitrária.
Por exemplo podemos perguntar se há alguma direção que seja preservada pela trans-
formação f . Se isso acontecer teremos pelo menos uma descrição muito simples do efeito
de f ao longo dessas direções. É isto o que acontece por exemplo com as rotações do espaço
que preservam o eixo da rotação e das reflexões num plano que preservam tanto as direções
do plano de reflexão como a direção ortogonal ao plano (na qual o sentido é trocado).
Definição 9.1. Seja f : V → V uma transformação linear. Um vetor v ∈ V \ {0} não
nulo diz-se um vetor próprio de f se existe um escalar λ tal que f (v) = λv. Nesse caso λ
diz-se um valor próprio de f e diz-se que v é um vetor próprio associado ao valor próprio
λ.
Exemplo 9.2. Considere-se a transformação linear f : R2 → R2 definida por
f (x, y) = (x + 2y, 2x + y)
ou seja, em notação matricial,

x 1 2 x
7→
y 2 1 y
5Fisicamente esta equação corresponde a adicionar ao sistema mecânico considerado anteriormente uma
força exterior dependente do tempo que actua com intensidade t3 /m (onde m é a massa da partı́cula).
Claramente
1 2 1 3 1
= =3
2 1 1 3 1
e
1 2 1 −1 1
= = −1
2 1 −1 1 −1
Pelo que v1 = (1, 1) e v2 = (1, −1) são vetores próprios de f com valores próprios 3 e −1
respetivamente. Note-se que quaisquer múltiplos não nulos destes vetores são ainda vetores
próprios (com os mesmos valores próprios).
Os vetores v1 e v2 formam uma base de R2 em termos da qual é extremamente simples
compreender o efeito que a transformação linear f tem sobre os vetores de R2 : Ao longo da
direção de v1 (a diagonal do primeiro quadrante) f expande por um fator de 3, enquanto
que na direção ortogonal, (a diagonal do quarto quadrante), f reflete. Com base nisto é
fácil descrever o efeito que f teria num desenho qualquer no plano.
Note-se ainda que, uma vez que f (v1 ) = 3v1 e f (v2 ) = −v2 temos que a representação
de f com respeito à base B = (v1 , v2 ) é

3 0
Af,B,B =
0 −1
Vimos no exemplo anterior como é fácil descrever uma transformação linear f : V → V
quando existe uma base para V formada por vetores próprios. Isto sugere a seguinte
definição.
Definição 9.3. Uma transformação linear f : V → V diz-se diagonalizável se existe uma
base para V constituı́da por vetores próprios de f . Uma matriz A ∈ Mn×n (R) diz-se
diagonalizável, se a transformação linear de Rn representada por A (com respeito à base
canónica) é diagonalizável.
A razão da palavra diagonalizável é, claro, que a representação de uma transformação
linear diagonalizável numa base B = (v1 , . . . , vn ) de vetores próprios é uma matriz diagonal
λ1 0 · · · 0
 
..
 0 λ2
 . 0  
 . .
 .. . . . . . ... 

0 · · · 0 λn
onde λi é o valor próprio associado a vi .
Pôe-se agora a questão de como encontrar os valores próprios e vetores próprios de uma
transformação linear. Note-se que não existem sempre, por exemplo uma rotação do plano
(por um ângulo que não seja 0 ou π) não fixa nenhuma direção.
Se A for uma matriz n × n que representa f numa dada base temos que tentar achar um
vetor v 6= 0 tal que
Av = λv ⇔ Av = λIn v ⇔ (A − λIn )v = 0
Assim, um valor próprio de f é um escalar λ para o qual a matriz A − λIn tenha núcleo
não trivial, ou equivalentemente, tal que A − λIn não seja invertı́vel. Uma vez achados os
valores próprios, os vetores próprios são fáceis de determinar - são elementos não triviais
do núcleo.
Embora seja possı́vel achar os valores próprios usando o método de Gauss (tratando λ
como um parâmetro), é útil ter um critério geral para que λ seja um valor próprio. É esse
o nosso próximo objetivo. Iremos ver que há um polinómio nas entradas de uma matriz
quadrada - o determinante da matriz - que se anula precisamente quando a matriz não é
invertı́vel. Quando calculamos esse polinómio para a matriz (A − λIn ) e igualamos a 0
obtemos uma equação para achar os valores próprios λ.
Esse polinómio pode não ter raı́zes reais, mas o Teorema Fundamental da Álgebra
garante-nos que existem sempre raı́zes complexas. Assim, desde que estejamos dispostos
a encarar as matrizes como matrizes complexas, existem sempre vetores próprios. Além
disso, uma matriz genérica (isto é escolhida “ao calhas”) é diagonalizável, até com valores
próprios todos distintos.
10. Determinantes
Queremos procurar um critério para que uma matriz n × n tenha núcleo não trivial
ou, equivalentemente, para que tenha caracterı́stica menor que n. Geometricamente, esta
condição traduz-se no espaço das linhas da matriz ter dimensão menor ou igual a (n − 1).
Pensando primeiro nos casos mais familiares em que n = 2 ou 3, esta condição geométrica
pode ainda traduzir-se no seguinte. Quando n = 2, podemos considerar o paralelogramo
P (v1 , v2 ) = {αv1 + βv2 : 0 ≤ α, β ≤ 1}
que tem um vértice na origem e duas das arestas dadas pelas linhas da matriz, que identi-
ficamos como vetores v1 e v2 de R2 ,
A matriz tem caracterı́stica menor ou igual a 1 se e só se este paralelogramo degenera
num segmento de reta ou num ponto, ou seja, se e só se a área do paralelogramo P (v1 , v2 )
é nula.
Analogamente, uma matriz 3×3 terá caracterı́stica menor que 3 se e só se o paralelipı́pedo
P (v1 , v2 , v3 ) = {αv1 + βv2 + γv3 : 0 ≤ α, β, γ ≤ 1}
(em que v1 , v2 , v3 designam as linhas da matriz identificadas com vetores de R3 ) tiver
volume nulo.
Mais geralmente pode definir-se uma noção de volume n-dimensional para um subcon-
junto de Rn como irão ver em Cálculo 2 e então a condição geral que procuramos é equiv-
alente ao volume do paralelipı́pedo n-dimensional P (v1 , . . . , vn ) ter volume n-dimensional
nulo.
O nosso objetivo é portanto encontrar uma fórmula para a área/volume de um paralel-
ogramo/paralelipı́pedo a partir das coordenadas dos vetores que formam as arestas. A
observação básica que nos permite obter esta fórmula é a seguinte (faça um desenho):
Ao deslizar o ponto final da aresta de um paralelogramo ao longo de uma
linha paralela à outra aresta, a área não se altera
ou seja
(24) área(P (v1 , v2 )) = área(P (v1 + αv2 , v2 ))
(e claro que o mesmo se verifica se deslizarmos o ponto final de v2 ao longo da direção
v1 ). Esta fórmula diz-nos por exemplo que as áreas dos paralelogramos correspondentes às
matrizes

a 0 a 0
e
c d 0 d
são iguais, pois (0, d) pode obter-se de (c, d) deslizando ao longo de (a, 0) (a não ser que
a = 0, mas nesse caso as áreas são nulas e a afirmação permanece verdadeira). Assim, a
área do paralelogramo com arestas (a, 0) e (c, d) é a área do retângulo com arestas (a, 0) e
(0, d), ou seja |ad| (mesmo que a ou d sejam 0). Mas a fórmula (24) diz-nos mais geralmente
que quando aplicamos o método de Gauss a uma matriz 2 × 2, a área do paralelogramo
associado não muda! Supondo que a 6= 0 temos

a b L2 − ac L1 a b
−→
c d 0 d − bca
logo concluı́mos que a área de um paralelogramo com arestas (a, b) e (c, d) é

bc
área (P ((a, b), (c, d))) = |a| · d − = |ad − bc|

a
(a leitora interessada poderá verificar que esta fórmula permanece válida mesmo quando
a = 0). E obtemos assim a condição desejada nas entradas da matriz:

a b
tem núcleo não trivial sse ad − bc = 0
c d
ou, equivalentemente,

a b
é invertı́vel sse ad − bc 6= 0
c d
Podemos fazer um raciocı́nio análogo para matrizes 3 × 3 mas a fórmula obtida será
agora mais complicada. Novamente o volume de um paralelipı́pedo P (v1 , v2 , v3 ) em R3
não se alterará se deslizarmos o ponto final de uma das arestas paralelamente ao plano
determinado pelas outras duas, ou seja, por exemplo
volume P (v1 + αv2 , v2 , v3 ) = volume P (v1 , v2 , v3 )
Portanto o volume de um paralelipı́pedo com arestas as linhas da matriz
 
a b c
 0 e f 
0 0 i
será o volume do paralelipı́pedo reto com arestas de comprimento |a|, |e| e |i|, e podemos
reduzir a este caso usando eliminação de Gauss:
 

a b c
 
a b c

L −
gb
h− a
L
a b c
3 1
− ad L1 e− db  0 e − db f − dc
 d e f  L2−→  0 e − db f − dc  −→ a
a a

g
L3 − a L1 a a  gb
h− a

gc
g h i 0 h − gb
a
i − gc
a
0 0 i − a
− e− db
(f − dc
a
)
a
Obtemos assim a fórmula

gb

db gc h − a dc
volume (P ((a, b, c), (d, e, f ), (g, h, i))) = |a| e − i − − (f − )

a a db a
e− a
que, reduzindo ao mesmo denominador e cancelando alguns termos se transforma em:
volume (P ((a, b, c), (d, e, f ), (g, h, i))) = |aei + bf g + cdh − ceg − bdi − af h|
Fica como exercı́cio verificar que esta fórmula é válida mesmo nos casos em que a = 0, ou
a 6= 0 mas e − dba
= 0, nos quais a eliminação de Gauss feita acima tem de ser modificada.
O cálculo anterior sugere que não será prático obter e manipular diretamente uma ex-
pressão para o volume de um paralelipı́pedo n-dimensional. Com efeito, para n = 4 veremos
que a fórmula análoga tem 24 termos, para n = 5, 120 termos, e em geral o número de
termos é n!. Uma expressão de tal complexidade só pode ser manipulada conceptualmente.
Abstraindo as propriedades, não do volume, mas da expressão mais fundamental que
obtivemos acima para n = 2, 3 cujo módulo é o volume, obtemos a seguinte definição.
Definição 10.1. Uma função determinante para as matrizes n × n é uma função
det : Mn×n (R) → R
que se denota por
a11 · · · a1n a11 · · · a1n

 

det .. ..  ou
.. ..
 . .
. .

an1 · · · ann an1 · · · ann
que satisfaz as seguintes propriedades.

(i) Multilinearidade: Para cada 1 ≤ i ≤ n temos

a11 · · · a 1n a11 · · · a1n a11 · · · a1n
.. .. .. .. .. ..

. . . . . .

ai1 + bi1 ain + bin = ai1 ain + bi1 bin

.. .. .
.. .. .. ..

. . . . .
an1 ··· ann an1 · · · ann an1 · · · ann
e, para α um escalar qualquer,

a11 · · · a1n a11 · · · a1n
.. .. .. ..

. . . .

αai1 αain = α ai1 ain

. .. .. ..
..

.

. .
an1 · · · ann an1 · · · ann
(ii) Alternância: det A = 0 se duas linhas da matriz A forem iguais.
(iii) Normalização: det In = 1.
Em concreto, no caso das matrizes 2 × 2, a primeira propriedade diz por exemplo que

2 1 2 1 2 1 2 1 2 1
= −2
1 + 3 2 + 4 = 1 2 + 3 4 e −2 · 3 −2 · 4

3 4
Observação 10.2. Se quiséssemos abstrair as propriedades do volume que usámos para
chegar às fórmulas para a área de um paralelogramo e o volume de um paralelipı́pedo, a
única alteração que terı́amos de fazer nas propriedades (i) a (iii) acima seria substituir
α por |α| do lado direito da segunda igualdade na propriedade (i), e insistir que a função
volume tomasse valores em R+ 0.
Identificando as linhas de uma matriz n × n com vetores de Rn , podemos pensar na

função determinante como uma função D : Rn × · · · × Rn → R que associa um escalar a
um n-tuplo (v1 , . . . , vn ) de vetores de Rn (vi é a i-ésima linha da matriz). Deste ponto de
vista, a propriedade de multilinearidade escreve-se
(25) D(v1 , . . . , αvi + βvi0 , . . . , vn ) = αD(v1 , . . . , vi , . . . , vn ) + βD(v1 , . . . , vi0 , . . . , vn )
onde v1 , . . . , vn ∈ Rn são vetores arbitrários e α, β escalares arbitrários. A equação (25)
diz que, para cada i entre 1 e n, a função Di : Rn → R que se obtém quando fixamos todos
os vectores excepto o i-ésimo,
Di (v) = D(v1 , . . . , vi−1 , v, vi+1 , . . . , vn )
é linear (ou seja, um elemento do dual de Rn ).
Em geral, uma função D : V × · · · × V → R satisfazendo (25) diz-se uma função multi-
linear 6 (é linear em cada variável independentemente).
A razão para o nome da segunda propriedade na definição de determinante é a seguinte.
Proposição 10.3. Seja D : V × · · · × V → R uma função multilinear. Então as seguintes
condições são equivalentes
(i) D(v1 , . . . , vn ) = 0 se vi = vj para algum i 6= j.
(ii) Se i 6= j, então D(v1 , . . . , vi , . . . , vj , . . . , vn ) = −D(v1 , . . . , vj , . . . , vi , . . . , vn ) para to-
dos os v1 , . . . , vn (isto é, a troca de dois argumentos tem como efeito a troca de sinal
do valor da função).
Dem.
6Também se chama um tensor-n covariante em V .
(i) ⇒ (ii) Supondo que i < j, e aplicando a linearidade primeiro na i-ésima variável e depois
na j-ésima obtemos
D(v1 , . . . , vi + vj , . . . , vi + vj , . . . , vn ) = D(v1 , . . . , vi , . . . , vi + vj , . . . , vn )+
D(v1 , . . . , vj , . . . , vi + vj , . . . , vn ) =
= D(v1 , . . . , vi , . . . , vi , . . . , vn ) + D(v1 , . . . , vi , . . . , vj , . . . , vn )
+D(v1 , . . . , vj , . . . , vi , . . . , vn ) + D(v1 , . . . , vj , . . . , vj , . . . , vn )
Substituindo os termos com argumentos repetidos por 0 obtém-se
0 = 0 + D(v1 , . . . , vi , . . . , vj , . . . , vn ) + D(v1 , . . . , vj , . . . , vi , . . . , vn ) + 0
que é equivalente à condição (ii).
(ii) ⇒ (i) Se vi = vj , então a troca do i-ésimo argumento com o j-ésimo não tem nenhum
efeito. Portanto
D(v1 , . . . , vi , . . . , vj , . . . , vn ) = −D(v1 , . . . , vj , . . . , vi , . . . , vn ) = −D(v1 , . . . , vi , . . . , vj , . . . , vn )
e portanto D(v1 , . . . , vi , . . . , vj , . . . , vn ) = 0.

É um resultado importante que as propriedades (i) a (iii) na definição de determinante
especificam completamente essa função:
Teorema 10.4. Existe uma única função determinante det Mn×n (R) → R
A demonstração deste teorema segue o padrão usual: iremos ver que só há uma possibili-
dade para uma tal função (obtendo no processo uma fórmula para o determinante) e depois
verificar que essa única possibilidade satisfaz de facto os axiomas da definição. Começamos
por ilustrar este processo usando os axiomas para ver que a única função determinante nas
matrizes 2 × 2 é
a b
det = ad − bc
c d
Sendo a, b, c, d ∈ R quaisquer e aplicando a linearidade do determinante na primeira linha
da matriz temos
a b
= a 1 0 + b 0 1

c d c d c d
e aplicando agora a linearidade na segunda linha obtemos

a b 1 0 1 0 0 1 0 1
c d = a c 1 0 + d 0 1 + b c 1 0 + d 0 1

Os primeiro e último termos do lado direito do sinal de igual na expressão acima são nulos
porque as linhas das matrizes em questão estão repetidas. Pelas propriedades (iii) e (ii)
respetivamente temos
1 0 0 1
1 0 = −1
=1 e
0 1
portanto
a b
c d = ad − bc

é a única função real das matrizes 2 × 2 que satisfaz as condições da Definição 10.1.
Façamos agora o caso mais realista de uma matriz 3 × 3. Assumindo que existe a função
determinante e usando linearidade na primeira linha obtemos

a b c 1 0 0 0 1 0 0 0 1

(26) d e f = a d e f + b d e f + c d e f

g h i g h i g h i g h i
Desenvolvendo o primeiro termo do lado direito do sinal de igual usando linearidade na
segunda linha obtemos
 
1 0 0 1 0 0 1 0 0 1 0 0

a d e f = a d 1
 0 0 + e 0 1 0 + f 0 0 1


g h i g h i g h i g h i
O primeiro termo na soma do lado direito é nulo porque a primeira linha está repetida.
Da mesma forma, cada parcela do lado direito em (26) vai dar origem a dois termos não
nulos quando aplicarmos linearidade ao longo da segunda linha da matriz. Podemos agora
aplicar linearidade ao longo da terceira linha a cada um destes 6 termos. Por exemplo,
para o primeiro dos seis resultaria
 
1 0 0 1 0 0 1 0 0 1 0 0

ae 0 1 0 = ae g 0 1 0 + h 0 1 0 + i 0 1 0  = aei
g h i 1 0 0 0 1 0 0 0 1
uma vez que os dois primeiros termos da soma anterior têm linhas repetidas e o determi-
nante da matriz identidade é 1. Aplicando o mesmo raciocı́nio para os restantes termos não
nulos na expansão até à segunda linha obtemos a seguinte expressão para o determinante:

1 0 0 0 1 0 0 1 0 0 0 1 0 0 1

aei + af h 0 0 1 + bdi 1 0 0 + bf g 0 0 1 + cdh 1 0 0 + ceg 0 1 0
0 1 0 0 0 1 1 0 0 0 1 0 1 0 0
Os determinantes das matrizes com 0s e 1s são ±1 consoante o número de vezes qye temos
que trocar um par de linhas para transformar a matriz na identidade é par ou ı́mpar.
Recuperamos assim a expressão para o determinante de uma matriz 3 × 3:

a b c

d e f = aei − af h − bdi + bf g + cdh − ceg

g h i
Procedendo desta forma para uma matriz n×n é agora claro que vamos obter uma expressão
para o determinante. Haverá um termo não nulo na expressão para cada matriz de 1s e 0s
que tenha exatamente um 1 em cada linha, e tal que os 1s nunca apareçam repetidos numa
coluna. Para descrever estes termos por meio de uma expressão necessitamos de alguma
terminologia.
Definição 10.5. Uma permutação do conjunto {1, . . . , n} é uma função bijetiva

σ : {1, . . . , n} → {1, . . . , n}
Designamos por Σn o conjunto de todas estas permutações.
Uma permutação descreve uma troca de ordem. Deve ser familiar do ensino secundário
que o número de elementos de Σn é n!. Os termos na expansão do determinante vão
corresponder precisamente às permutações: se chamarmos σ(i) à coluna em que aparece
o 1 na linha i, a condição que não apareçam dois 1s na mesma coluna é σ(i) 6= σ(j) para
i 6= j, ou seja é a injetividade da função σ. Como uma função injetiva de um conjunto
com n elementos para ele próprio é necessariamente uma bijeção, conclui-se que a função
determinada por uma matriz de 0s e 1s satisfazendo as condições indicadas é uma bijeção.
O termo do determinante de A correspondente a uma permutação σ será dado pelo
produto das entradas de A que ocorriam nas posições onde estão os 1s, ou seja o produto
dos aiσ(i) com i = 1, . . . , n. O termo terá um sinal que será ± consoante o número de vezes
que temos que trocar pares de linhas para transformar a matriz de 0s e 1s na identidade
é par ou impar. Chamando a este sinal sgn(σ) - o sinal da permutação σ - obtemos a
seguinte expressão para o determinante:
X
(27) det(A) = sgn(σ)a1σ(1) a2σ(2) · · · anσ(n)
σ∈Σn
O argumento anterior torna claro que se existir uma função determinante, ela é única (tem
que ser dada pela fórmula (27)!). Mas neste momento não é ainda claro que uma tal função
exista. Há muitas maneiras de trocar pares de linhas de forma a obter a matriz identidade
a partir de uma matriz de 0s e 1s. Se para uma das maneiras o número de trocas fosse
par e para outra maneira fosse ı́mpar concluir-se-ia que a função determinante não podia
existir.
Não é fácil verificar diretamente que o sinal de uma permutação está bem definido. Em
vez disso vamos dar uma construção indutiva do determinante. Uma vez que isto esteja
feito teremos implicitamente provado que o sinal de uma permutação está bem definido!
Será necessariamente
(
1 se j = σ(i)
(28) sgn(σ) = det A(σ) com A(σ) a matriz com entradas aij =
0 caso contrário.
A matriz A(σ) diz-se uma matriz de permutação. O efeito que tem nas coordenadas de um
vetor linha ou coluna é uma permutação das coordenadas. Por exemplo,
x1 xσ(1)
   
 x2   xσ(2) 
A(σ) 
 ...  =  ... 
  
xn xσ(n)
É um bom exercı́cio ver o que acontece quando se multiplica à esquerda por um vetor linha.
Dem. do Teorema 10.4. Já vimos que se existir uma função determinante ela é única (e
dada pela fórmula (27)). Vamos ver por indução em n que existe uma função determinante
para matrizes n × n. Quando n = 1, é imediato que
det([a11 ]) = a11
Suponhamos que já definimos uma função determinante nas matrizes n × n. Dada uma
matriz A do tipo (n + 1) × (n + 1), seja A1i a matriz n × n que se obtém de A suprimindo
a primeira linha e a i-ésima coluna. Vamos definir
(29) det(A) = a11 det(A11 ) − a12 det(A12 ) + . . . + (−1)n a1(n+1) det A1(n+1)
fórmula esta que é motivada pela relação entre os determinantes para matrizes 3 × 3 e 2 × 2
que obtivemos anteriormente.
Temos a verificar que det A verifica as condições (i) − (iii) da Definição 10.1. A condição
(i) é verificada porque a expressão (29) é claramente linear na primeira linha da matriz A e,
por hipótese de indução, nas restantes, uma vez que as funções det(A1i ) são multilineares.
A condição (iii) também é verificada porque as entradas na primeira linha da matriz
identidade In+1 com excepção da primeira são todas nulas. Uma vez que (I(n+1) )11 = In
obtemos
det(In+1 ) = 1 · det(In ) = 1.
Resta-nos verificar que se uma das linhas de A está repetida então det A = 0. Se a
repetição ocorrer nas linhas i e j com i, j ≥ 2 então todos os termos det(A1i ) em (29) se
anulam (por hipótese de indução) e portanto det A = 0. Se i = 1, podemos assumir que
j = 2 uma vez que, por hipótese de indução, o termo direito da equação (29) troca de sinal
quando trocamos a linha j de A com a segunda linha.
Suponhamos assim que A tem a primeira e segunda linha iguais. Se A é uma matriz
2 × 2 a expressão (29) é
det(A) = a11 a22 − a12 a21 = a11 a12 − a12 a11 = 0
Se n > 1, podemos, por hipótese de indução aplicar a expressão (29) às matrizes n × n A1i .
A entrada 1j na primeira linha de A1i é igual a
(
a2j se j < i
a2(j+1) se j > i
portanto
i−1
X n+1
X
det(A1j ) = (−1)j−1 a2j det(A12|ij ) + (−1)j a2j det(A12|ij )
j=1 j=i+1
onde A12|ij denota a matriz (n − 1) × (n − 1) que se obtém de A suprimindo as primeiras

duas linhas e as colunas i e j. Substituindo esta expressão em (29) vemos que há dois
termos nos quais aparece det(A12|ij ) para i, j dados com 1 ≤ i < j ≤ n:
(−1)i−1 a1i · (−1)j−2 a2j det(A12|ij )
que é o (j − 1)-ésimo termo da expansão do termo (−1)i−1 a1i det(A1i ) à direita do sinal de
igual em (29) e
(−1)j−1 a1j · (−1)i−1 a2i det(A12|ij )
que vem da expansão do termo (−1)j−1 a1j det(A1j ). Uma vez que as primeiras duas linhas
da matriz são iguais, temos
(−1)i−1 a1i · (−1)j−2 a2j det(A12|ij ) + (−1)j−1 a1j · (−1)i−1 a2i det(A12|ij ) = 0
Observação 10.6. Uma função f : Mn×n (R) → R satisfazendo as propriedades (i) e (ii)
na Definição 10.1 chama-se uma função multilinear alternante. O argumento usado na
demonstração de unicidade do determinante aplicado a uma tal função (sem qualquer al-
teração) mostra que
X
f (A) = sgn(σ)a1σ(1) · · · anσ(n) f (In )
σ∈Σn
pelo que o valor de uma tal função em qualquer matriz é completamente determinado pelo
valor que assume na matriz identidade. Mas sendo λ ∈ R qualquer, a função A 7→ λ det(A)
é uma função multilinear alternante que assume o valor λ em In , pelo que se conclui que
toda a função multilinear alternante é da forma
f (A) = λ det(A)
em que λ = f (In ).
Vamos agora ver algumas propriedades importantes do determinante que nos ajudam a
calculá-lo.
Definição 10.7. Seja A uma matriz n × n. Para 1 ≤ i, j ≤ n designamos por Aij a
matriz (n − 1) × (n − 1) que se obtém de A omitindo a i-ésima linha e a j-ésima coluna.
O menor-ij de A é o número det Aij e o cofator-ij de A é (−1)i+j det Aij . A matriz n × n
cuja entrada ij é o cofator-ij diz-se a matriz dos cofatores de A e denota-se por cof A.
Proposição 10.8 (Propriedades do determinante). Sejam A e B matrizes n × n.
(i) Expansão de Laplace Sendo 1 ≤ i ≤ n, temos
n
X
det(A) = (−1)i+j aij det(Aij )
j=1
onde Aij é a matriz que se obtém de A omitindo a linha i e a coluna j. A fórmula

acima chama-se a expansão de Laplace para o determinante ao longo da linha i.
(ii) det(AB) = det(A) det(B)
(iii) det(AT ) = det(A)
(iv) A(cof(A))T = det(A)In .
Antes de vermos a demonstração destas propriedades notemos as seguintes consequências.
Corolário 10.9 (Expansão de Laplace ao longo de colunas). Sendo 1 ≤ j ≤ n, temos

n
X
det(A) = (−1)i+j aij det(Aij )
i=1
Dem. A expansão ao longo da coluna j no enunciado é exatamente a expansão ao longo

da linha j de AT . Logo calcula det AT = det A.
Corolário 10.10. Uma matriz quadrada A é invertı́vel sse det A 6= 0 e nesse caso
1
A−1 = (cof A)T
det A
Dem. Se A é invertı́vel então det(A) det(A−1 ) = det(AA−1 ) = det(In ) = 1 logo det(A) 6= 0
e
1
det(A−1 ) =
det A
Reciprocamente se det A 6= 0, a Proposição 10.8 (iv) diz-nos que

1 T
A (cof A) = In
det A
pelo que A é invertı́vel (cf. Proposição 7.8 (vi)) sendo a inversa descrita pela fórmula no
enunciado.
Esta fórmula para a inversa de uma matriz tem mais utilidade teórica do que prática
porque não é fácil calcular determinantes de matrizes grandes. É no entanto muito útil
para matrizes 2 × 2, caso em que afirma que
−1
a b 1 d −b
= quando ad − bc 6= 0
c d ad − bc −c a
Dem. da Proposição 10.8. (i) Para i = 1 a expansão de Laplace é simplesmente a ex-
pressão indutiva (29) usada para demonstrar a existência do determinante. Se i > 1,
seja Ã a matriz que se obtém de A trocando a linha 1 com a linha i. Aplicando (29)
obtemos
Xn n
X
(30) det(A) = − det(Ã) = − (−1)1+j ã1j det(Ã1j ) = − (−1)1+j aij det(Ã1j )
j=1 j=1
Notamos agora que as matrizes Ã1j e Aij diferem pela troca da (i−1)-ésima linha com
o bloco formado pelas linhas que a precedem - o que corresponde a (i − 2)-trocas de
pares de linhas à medida que a linha (i − 1) “flutua até chegar à superfı́cie”. Portanto
det(Ã1j ) = (−1)i−2 det Aij
Substitituindo em (30) obtemos a fórmula pretendida.
(ii) Fixada uma matriz B, considere-se a função f : Mn×n (R) → R definida por
f (A) = det(AB)
Trata-se de uma função multilinear e alternante das linhas de A pela definição do pro-
duto de matrizes e pelas propriedades (i) e (ii) na definição de função determinante.
Uma vez que f (In ) = det(B), a Observação 10.6 diz-nos que f (A) = det(A) det(B).
(iii) A expressão (27) diz-nos que
X X
det(AT ) = sgn(σ)aT1σ(1) · · · aTnσ(n) = sgn(σ)aσ(1)1 · · · aσ(n)n
σ∈Σn σ∈Σn
Seja σ −1 : {1, . . . , n} → {1, . . . , n} a permutação inversa de σ (isto é, a permutação

que verifica σ −1 (σ(i)) = i para i = 1, . . . , n). Então
σ(i) = j ⇔ i = σ −1 (j)
e portanto
aσ(1)1 · · · aσ(n)n = a1σ−1 (1) · · · anσ−1 (n)
(do lado direito do sinal de igual aparecem as mesmas entradas da matriz que do lado
esquerdo mas por outra ordem; estão agora ordenados pelo primeiro ı́ndice, enquanto
que à esquerda estão ordenados pelo segundo). Temos assim
X
(31) det(AT ) = sgn(σ)a1σ−1 (1) · · · anσ−1 (n)
σ∈Σn
As matrizes A(σ) associadas às permutações (ver (28)) colocam na coordenada i de um

vetor coluna a coordenada que estava na posição σ(i). Logo o efeito de A(σ)A(σ −1 )
num vetor coluna é colocar na coordenada i a componente xσ−1 (σ(i)) = xi . Portanto
A(σ)A(σ −1 ) = In ⇒ det(A(σ)) det A(σ −1 ) = 1 ⇒ det(A(σ)) = det(A(σ −1 ))
onde a última implicação usa que os determinantes das matrizes de permutação é ±1.
Notando que sgn(σ) = det A(σ) e substituindo em (31) temos
X
det(AT ) = sgn(σ −1 )a1σ−1 (1) · · · anσ−1 (n)
σ∈Σn
Quando σ percorre todos os elementos de Σn , o mesmo sucede com a sua inversa σ −1

pelo que a expressão à direita na igualdade acima é exatamente a fórmula (27) para
o determinante de A. Isto conclui a demonstração.
(iv) A fórmula no enunciado diz-nos que o produto da linha i da matriz A pela coluna j da
matriz (cof A)T é det(A) se i = j e 0 caso contrário. A expressão para este produto é
X n Xn n
X
T
aik ((cof A) )kj = aik (cof A)jk = aik (1)j+k det(Ajk )
k=1 k=1 k=1
Quando i = j, a expressão anterior é a expansão de Laplace para o determinante de
A ao longo da linha i e é portanto igual a det A. Para i 6= j, a expressão é a expansão
de Laplace ao longo da linha j da matriz que se obtém de A repetindo a linha j na
linha i, e é portanto igual a 0.

Observação 10.11. É instrutivo pensar em escrever explicitamente a igualdade indicada
na Proposição 10.8(ii) em termos das entradas das matrizes envolvidas. Mesmo para ma-
trizes 3 × 3 a complexidade é enorme! É fácil no entanto convencer-se que, pelo menos a
menos de sinal, a igualdade se deve verificar:
Atendendo à Proposição 10.8(iii), | det A| é o volume do paralelı́pipedo que tem por
arestas as colunas da matriz A, paralelipı́pedo este que é a imagem do cubo com arestas
unitárias em Rn pela transformação linear x 7→ Ax . Segue-se que a imagem de um cubo
qualquer em Rn por esta transformação tem volume igual a | det(A)| vezes o volume do
cubo original. Verão em Cálculo 2 que o volume de um subconjunto (razoável) de Rn se
define aproximando esse conjunto por cubos muito pequenos e passando ao limite. Segue-se
então que | det A| é o fator pelo qual a transformação linear x 7→ Ax multiplica volumes.
Uma vez que AB é a matriz que representa a composta das transformações lineares repre-
sentadas por A e B, segue-se que o fator pela qual AB multiplica volumes é | det(A)|| det(B)|.
Exemplo 10.12. Vamos calcular o determinante

2 0 3 0

0 0 1 0

1 4 5 7

1 8 9 3
usando a expansão de Laplace. Uma vez que a segunda linha tem 3 zeros, é mais eficiente
fazer a expansão ao longo dessa linha. Obtemos

0 3 0 2 3 0 2 0 0 2 0 3

2+1

2+2

2+3

0·(−1) 4 5 7 +0·(−1) 1 5 7 +1·(−1) 1 4 7
+0·(−1)2+4 1 4 5

8 9 3 1 9 3 1 8 3 1 8 9
e fazendo agora a expansão de Laplace do único termo não nulo ao longo da primeira linha
obtém-se
2 0 0
1+1 4 7

− 1 4 7 = −2 · (−1)
= −2(4 · 3 − 7 · 8) = 88.
8 3
1 8 3
A fórmula para a inversa de uma matriz em termos do determinante conduz à seguinte
fórmula explı́cita para a solução de um sistema linear quando a matriz dos coeficiente do
sistema é invertı́vel.
Proposição 10.13 (Regra de Cramer). Seja A uma matriz n×n invertı́vel e b uma matriz
n × 1. Então a componente xi da solução do sistema linear
Ax = b
é dada pela fórmula
det Ai
xi =
det A
onde Ai é a matriz que se obtém de A substituindo a coluna i de A por b.
Dem. A componente xi da solução do sistema é a i-ésima entrada de A−1 b e é portanto

dada por
n
X
xi = cij bj
j=1
−1
onde cij é a entrada ij da matriz A . Pelo Corolário 10.10 esta entrada é
det(Aji )
cij = (−1)i+j
det A
pelo que
n
1 X
xi = (−1)i+j bj det(Aji )
det A j=1
O somatório na expressão anterior é exatamente o desenvolvimento de Laplace ao longo
da coluna i da matriz Ai do enunciado. Isto conclui a demonstração.
Exemplo 10.14. Vamos achar a coordenada y da solução do sistema

2x + 3y + z = 3

x−y+z =4

x + 2y − z = 5
Pela regra de Cramer temos

2 3 1

1 4 1

1 5 −1 11
y = =−
2 3 1
7
1 −1 1

1 2 −1
Definição 10.15. Uma matriz quadrada A diz-se triangular superior se aij = 0 para i > j
(isto é se todas as entradas abaixo da diagonal principal são nulas) e triangular inferior se
aij = 0 para i < j (isto é se todas as entradas acima da diagonal principal são nulas).
É imediato da expansão de Laplace que o determinante de uma matriz triangular (su-
perior ou inferior) é igual ao produto das entradas na diagonal

λ1 ∗ · · · ∗

.. ..
0 λ2
. .
. . = λ1 · · · λn
.. . . . . . ...

0 · · · 0 λn
Uma generalização da última propriedade que é muito útil diz respeito ao cálculo de deter-
minantes de matrizes escritas por blocos. Podemos pensar numa matriz de grande dimensão
como uma “matriz de matrizes” juntando algumas entradas para formar matrizes de menor
dimensão.
Por exemplo podemos escrever a matriz

 
1 2 5 6 7
A B
(32)  3 4 8 1 2 =

C D
0 3 4 5 6
com A, B, C, D os blocos respetivamente 2 × 2, 2 × 3, 1 × 2, e 1 × 3 dados por

1 2 5 6 7
A= , B= , C= 0 3 , D= 4 5 6
3 4 8 1 2
Por vezes é útil calcular com matrizes separadas por blocos. É claro que a soma e o produto
por escalar se podem fazer bloco a bloco. Mais interessante é que o produto é dado pela
fórmula habitual para o produto de matrizes mas com os escalares substituı́dos por blocos
(desde que os produtos de matrizes em questão façam sentido). Isto é uma consequência
imediata da definição de produto de matrizes. Por exemplo, considerando a matriz por
blocos
2 1 1 2 1 1
X Y = com X = eY =
3 4 2 3 4 2
O produto desta matriz pela matriz (32) é

A B
X Y = XA + Y C XB + Y D
C D
Por exemplo a entrada 21 da matriz produto é igual a
3 · 1 + 4 · 3 + 2 · 0 = (3 · 1 + 4 · 3) + 2 · 0
onde do lado direito do sinal de igual temos dentro de parentesis a entrada 21 do bloco
XA e depois a entrada 21 do bloco Y C. A relevância destas decomposições para o cálculo
de determinantes é a seguinte
Proposição 10.16. O determinante de uma matriz triangular por blocos com blocos quadra-
dos na diagonal é o produto dos determinantes dos blocos diagonais

A1 ∗ · · · ∗

. .
0 A2 . . ..

. . = |A1 | · · · |An |
.. . . . . . ...

0 · · · 0 An
Dem. É um exercı́cio da Ficha 11.

Exemplo 10.17.

1 0 5 11 6

3 2 3 27 5

0 1 0 ·4· 3 2

= 2 · 4 · 10 = 80
0 4 2 2 =

0 3 2 1 4
0 0 3 2
0 0 0 1 4
Finalmente, notemos que se V é um espaço vetorial de dimensão finita, pode definir-se

o determinante de uma transformação linear T : V → V . Sendo B uma base ordenada de
V definimos
det(T ) = det(AT,B,B )
Temos que verificar que este número é independente da escolha de B. Se B 0 é outra base
e S = SB→B 0 a matriz de mudança de coordenadas então
AT,B 0 ,B 0 = SAT,B,B S −1
e portanto
1
det(AT,B 0 ,B 0 ) = det(S) det(AT,B,B ) det(S −1 ) = det(S) det(AT,B,B ) = det(AT,B,B )
det(S)
Não seria fácil neste momento explicar-vos como definir intrinsecamente o determinante de
uma transformação linear, sem apelar à sua representação matricial.
11. Mais sobre valores e vetores próprios

Recorde-se que a nossa motivação para o estudo do determinante foi precisamente a busca
de uma equação que caracterizasse os valores próprios de uma matriz (ou transformação
linear). Agora que dispomos dessa equação, o seu estudo vai trazer-nos bastante informação
acerca da transformação linear em questão.
Definição 11.1. Seja A uma matriz n × n. O polinómio caracterı́stico de A é o polinómio
definido pela expressão
p(λ) = det(A − λIn )
Tendo em conta a fórmula (27) para o determinante vemos que o polinómio caracterı́stico
de uma matriz n × n tem grau exatamente n (o termo de grau n resulta do produto
das entradas na diagonal e é igual a (−λ)n ). A propriedade fundamental do polinómio
caracterı́stico é que as suas raı́zes ou zeros são exatamente os valores próprios de A:
p(λ) = 0 ⇔ det(A − λIn ) = 0 ⇔ (A − λIn ) não é invertı́vel ⇔ N (A − λIn ) 6= {0}
sendo que a última condição diz, por definição, que λ é um valor próprio de A.
Enunciamos agora um resultado fundamental cuja demonstração irão ver no próximo ano
na cadeira de Análise Complexa, e que garante em particular que toda a matriz quadrada
tem um valor próprio, pelo menos se for vista como uma matriz de números complexos.
Teorema 11.2 (Teorema Fundamental da Álgebra). Qualquer polinómio de grau k
p(x) = a0 + a1 x + . . . ak xk
com coeficientes ai ∈ C (e ak 6= 0) pode ser escrito de forma única a menos de troca de
ordem dos fatores na forma
(33) ak (x − λ1 )n1 (x − λ2 )n2 · · · (x − λk )nk
com λi ∈ C distintos, e ni números naturais.
Claro que os números λi na expressão (33) são as raı́zes do polinómio p(x). O expoente
ni diz-se a multiplicidade da raı́z λi .
Observação 11.3. O Teorema Fundamental da Álgebra é análogo ao Teorema Funda-
mental da Aritmética que diz que qualquer número natural se pode escrever de forma única
como um produto de potências de números primos a menos de troca de fatores.
Definição 11.4. Sendo λ um valor próprio de uma matriz quadrada A, chama-se
• Espaço próprio de λ ao subespaço N (A − λIn ) de Rn .
• Multiplicidade geométrica de λ, mg (λ) à dimensão do espaço próprio de λ.
• Multiplicidade algébrica de λ, ma (λ) à multiplicidade de λ como raı́z do polinómio
caracterı́stico de A.
Os elementos do espaço próprio de λ são os vetores próprios de λ juntamente com
0, pelo que a multiplicidade geométrica é o número máximo de vetores próprios de λ
linearmente independentes. Veremos em breve que mg (λ) ≤ ma (λ). Note-se que a soma
das multiplicidades algébricas de todos os valores próprios é igual a n (que é o grau do
polinómio caracterı́stico), portanto uma matriz é diagonalizável se e só se as multiplicidades
algébrica e geométrica coincidem para todos os valores próprios.
Exemplo 11.5. Consideremos a matriz
 
3 0 0
A= 0 1 1 
0 −1 1
O seu polinómio caracterı́stico é

3−λ 0 0

p(λ) = 0
1−λ 1 = (3 − λ)((1 − λ)2 + 1) = (3 − λ)(λ − (1 + i))(λ − (1 − i))
0 −1 1 − λ
Os valores próprios de A são portanto 3, 1 + i, 1 − i que têm todos multiplicidade algébrica
1. Note-se que as raı́zes complexas formam um par de complexos conjugados. Isto não é
uma coincidência. Se
p(x) = a0 + a1 x + . . . + an xn
é um polinómio real, uma vez que a conjugação preserva a soma e produto de números
complexos (ou seja, z + w = z + w e zw = zw) temos para λ ∈ C,
n
p(λ) = a0 + a1 λ + an λ = a0 + a1 λ + . . . + an (λn ) = p(λ)
onde usámos que ai = ai porque os ai ∈ R. Assim, se λ é uma raı́z complexa de p, o mesmo
sucede com λ. Adicionalmente, é um exercı́cio simples verificar que as multiplicidades das
raı́zes λ e λ são iguais.
Achemos os espaços próprios de A. O espaço próprio de 3 é N (A−3I3 ) que é claramente
igual a {(x, 0, 0) : x ∈ R}. Os vetores próprios de 3 são portanto os vetores não nulos que
pertencem ao eixo dos xx.
O espaço próprio de 1 + i é
 
2−i 0 0
N  0 −i 1 
0 −1 −i
cujos elementos são as soluções do sistema

(2 − i)x = 0
 (
x=0
−iy + z = 0 ⇔

−y − iz = 0 z = iy
donde se conclui que o espaço próprio de 1 + i é

{α(0, 1, i) : α ∈ C} ⊂ C3
Não é necessário fazer contas para achar o espaço próprio de 1 − i. De facto, se A é
uma matriz real com valor próprio λ e v ∈ Cn é um vetor próprio de λ então, novamente
pelas propriedades da conjugação temos
Av = Av = λv = λv
onde A e v designam respetivamente a matriz e o vetor que se obtém de A e v conjugando
cada componente, e na primeira igualdade usámos que A = A uma vez que A é real.
Portanto v é um vetor próprio associado a λ se e só se v é um vetor próprio associado a
λ.
O espaço próprio de (1 − i) é portanto
{α(0, 1, −i) : α ∈ C} ⊂ C3
Proposição 11.6. Seja A uma matriz n × n complexa e µ um valor próprio de A. Então
a multiplicidade geométrica de µ é menor ou igual à multiplicidade algébrica de µ.
Dem. Seja k a multiplicidade algébrica de µ, suponhamos por absurdo que v1 , . . . , vk+1 são
vetores próprios de µ linearmente independentes. Sejam vk+2 , . . . , vn vetores de Cn tais
que B = (v1 , . . . , vn ) é uma base ordenada de Cn .
Consideremos a transformação linear T : Cn → Cn determinada por T x = Ax. Uma vez
que T vi = µvi para i = 1, . . . , k + 1, a matriz que representa T na base B é triangular
superior por blocos da forma
µ 0 ··· 0
 
. .. .
 0 .. . .. 

D G

AT,B,B = com D =  . .  ∈ M(k+1)×(k+1) (C)

0 H  .. .. . .. 0 
0 ··· 0 µ
Se S = SB→Bcan for a matriz de mudança de coordenadas da base B para a base canónica
temos
A = SAT,B,B S −1
e portanto os polinómios caraterı́sticos de A e de AT,B,B são iguais:
det(A − λIn ) = det(SAT,B,B S −1 − λIn ) = det(SAT,B,B S −1 − λSIn S −1 )

= det(S(AT,B,B − λIn )S −1 ) = det(S) det(AT,B,B − λIn ) det(S −1 )
1
= det(S) det(AT,B,B − λIn ) = det(AT,B,B − λIn )
det(S)
Mas isto é uma contradição porque claramente (λ − µ)k+1 divide o polinómio caracterı́stico
de AT,B,B (que é igual a det(D − λIk+1 ) det(H − λIn−k−1 ) = (µ − λ)k+1 det(H − λIn−k−1 ))
mas, por hipótese, não divide o polinómio caracterı́stico de A.
Proposição 11.7. Seja T : V → V uma transformação linear. Se v1 , . . . , vk são vetores

próprios de T associados a valores próprios distintos λ1 , . . . , λk então {v1 , . . . , vk } é um
conjunto linearmente independente.
Dem. Sejam α1 , . . . , αk escalares tais que
α1 v1 + . . . + αk vk = 0
Temos a ver que os αi ’s são todos nulos. Uma vez que, por hipótese, T vi = λi vi temos
(
0 se i ≥ 2
(T −λ2 Id)◦· · ·◦(T −λk Id)vi = (λi −λ2 ) · · · (λi −λk )vi =
(λ1 − λ2 ) · · · (λ1 − λk )v1 se i = 1
Portanto
0 = (T − λ2 Id) ◦ · · · ◦ (T − λk Id)(α1 v1 + . . . + αk vk ) = α1 (λ1 − λ2 ) · · · (λ1 − λk )v1
Donde se conclui que α1 = 0. Procedendo de forma análoga vemos que todos os coeficientes
são nulos e portanto que {v1 , . . . , vk } é um conjunto linearmente independente.
Exemplo 11.8. A matriz

 
1 3 −2
 0 2 1 
0 0 3
é diagonalizável. De facto, tem valores próprios 1, 2, 3 todos distintos. Cada valor próprio
tem um vetor próprio e estes formam uma base de R3 pela Proposição 11.7. Mais geral-
mente qualquer matriz triangular superior ou inferior com entradas diagonais distintas é
diagonalizável.
É natural perguntar como descrever uma transformação linear que não pode ser diago-
nalizada, isto é, tal que algum dos valores próprios tem multiplicidade geométrica inferior à
multiplicidade algébrica. A resposta é que uma tal matriz pode ser “quase diagonalizada”
no seguinte sentido.
Definição 11.9. Uma matriz quadrada da forma

1 ··· 0
 
λ
.
 0 λ .. 0 
 
.
0 .. 1 
 
 0
0 0 ··· λ
com λ ∈ C diz-se um bloco de Jordan.
Diz-se que uma matriz n×n complexa J está em forma canónica de Jordan se é diagonal
por blocos e cada bloco diagonal é um bloco de Jordan. Ou seja, J está em forma canónica
de Jordan se
J1 0 · · · 0
 
 0 J2 · · · 0 
(34) J =  0 0 ... 0 

0 0 ··· Jk
com Ji blocos de Jordan.
2 1 0 0 0 0 0 0
 
 0 2 0 0 0 0 0 0 
0 0 3 0 0 0 0 0
 
 
0 0 0 3 1 0 0 0
 
 
0 0 0 0 3 1 0 0
 
 

 0 0 0 0 0 3 0 0 

 0 0 0 0 0 0 i 1 
0 0 0 0 0 0 0 i
está em forma canónica de Jordan. Tem 4 blocos de Jordan; um associado ao valor próprio
2 de tamanho 2, dois associados ao valor próprio 3 com tamanhos 1 e 3 respetivamente, e
um último associado ao valor próprio i com tamanho 2.
Teorema 11.11. Se A é uma matriz n × n complexa, existe uma matriz invertı́vel S e
uma matriz J em forma canónica de Jordan tal que
A = SJS −1 .
Observação 11.12. Sendo Ji blocos de tamanho ni com entrada diagonal λi temos
det(A − λI) = det(J − λI) = (λ − λ1 )n1 · · · (λ − λk )nk
Logo os escalares que aparecem na diagonal da matriz J são os valores próprios, repetidos
de acordo com a sua multiplicidade algébrica. A soma dos tamanhos dos blocos com entrada
diagonal µ é a multiplicidade algébrica do valor próprio µ.
As colunas da matriz S formam uma base para Cn . Vamos analisar o comportamento
da transformação linear representada pela matriz A nesta base. Esta análise levar-nos-á a
compreender como achar a forma canónica de Jordan de uma matriz A dada, assim como
a matriz mudança de coordenadas S que a pôe em forma canónica de Jordan.
Sejam
v1 , v2 , . . . , vm ∈ Cn
as colunas da matriz S que correspondem ao bloco de Jordan Ji e λi o valor que assumem
as entradas diagonais de Ji . Uma vez que a coluna j de um produto de matrizes CD se
obtém multiplicando a matriz C pela coluna j de D, a equação
AS = SJ
diz-nos que
Av1 = λi v1 , Av2 = λi v2 + v1 , Av3 = λi v3 + v2 , ··· Avm = λi vm + vm−1
Portanto
• Os vetores que aparecem nas colunas de S correspondentes à primeira coluna de
um bloco de Jordan Ji com λi na diagonal são vetores próprios de λi . Vamos dizer
”primeiras colunas” para nos referir a estes vetores.
• Escrevendo um vetor v ∈ Cn na base das colunas de S vê-se imediatamente que
v é um vetor próprio de A com valor próprio λ sse v é uma combinação linear de
primeiras colunas correspondentes a blocos com λ na diagonal. Em particular, o
número de blocos de Jordan com λ na diagonal é o número máximo de vetores
próprios linearmente independentes de λ. Mais precisamente, o número de blocos
de Jordan com λ na diagonal é a dimensão do espaço próprio de λ, ou seja, a
multiplicidade geométrica de λ.
• Os vetores v1 , . . . , vm satisfazem as equações
(35) (A − λi I)v2 = v1 , (A − λi I)v3 = v2 , ..., (A − λi I)vm = vm−1
Diz-se que os vectores v1 , . . . , vm formam uma cadeia de Jordan. Uma vez que
(A − λi I)v1 = 0 isto implica a relação
(A − λi I)j vj = 0 para todo o j
Diz-se que os vectores vj são vectores próprios generalizados do valor próprio λi . O
espaço próprio generalizado de λ é por definição o conjunto
{v ∈ Cn : (A − λI)k v = 0 para algum k}
O Teorema 11.11 diz que é sempre possı́vel obter uma base para Cn formada por
vectores próprios generalizados de A.
Exemplo 11.13. No Exemplo 11.10, as multiplicidades algébricas de 2, 3 e i são 2, 4 e 2
respetivamente, e as multiplicidades geométricas são 1, 2 e 1 respetivamente.
As observações anteriores podem ser usadas para determinar uma forma canónica de
Jordan J e a correspondente matriz de mudança de base simultaneamente: começamos
por calcular os valores próprios de A e uma base para o espaço próprio de cada valor
próprio. Isso dá-nos o número de blocos de Jordan para cada um dos valores próprios
de A. Se a multiplicidade algébrica de λ for superior à multiplicidade geométrica haverá
pelo menos um bloco de Jordan para λ com tamanho maior do que 1. Para determinar o
tamanho de cada bloco e, simultaneamente, as colunas de S que lhe correspondem tentamos
resolver as equações (35) recursivamente começando com um vector próprio v1 .
Exemplo 11.14. Vamos determinar a forma canónica de Jordan para a matriz
 
2 1 0
A =  1 2 −1 
1 1 1
O polinómio caracterı́stico é
det(A − λI) = (2 − λ)2 (1 − λ)
logo os valores próprios são 2, com multiplicidade algébrica 2 e 1, com multiplicidade
algébrica 1. Um vector próprio para 1 é (1, −1, 0). Os vectores próprios de 2 são as
soluções da equação
   
0 1 0 a  b=0
 1 0 −1   b  = 0 ⇔ b=0
a−c=0 ⇔
a=c
1 1 −1 c a+b−c=0

Uma base para os vectores próprios de 2 é (1, 0, 1) e portanto a multiplicidade geométrica

de 2 é apenas 1. Isto significa que a matriz A não é diagonalizável. Há dois blocos de
Jordan (um para cada vector próprio) e o bloco com 2 na diagonal tem dimensão 2 que é
a multiplicidade algébrica de 2. Conclui-se que uma forma canónica de Jordan é
 
1 0 0
J = 0 2 1 
0 0 2
A matriz de mudança da base S tem (1, −1, 0) na primeira coluna e (1, 0, 1) na segunda.
Para achar a terceira coluna resolvemos a equação (35):
      
1 0 1 0 a 1
b=1
(A − 2I)v2 = 0 ⇔ 1 0 −1
     b = 0 ⇔
  
a=c
1 1 1 −1 c 1
Uma solução da equação anterior é, por exemplo, v2 = (0, 1, 0) logo podemos tomar para
matriz mudança de base
 
1 1 0
S =  −1 0 1 
0 1 0
11.15. O algoritmo PageRank. Consideremos uma internet com apenas três páginas
ligadas de acordo com o diagrama
1 2
Supondo que n1 , n2 e n3 é o número de pessoas em cada página num dado instante e que
cada pessoa clica num link ao acaso em cada página, o número de pessoas que esperarı́amos
estivesse numa página no instante seguinte seria
  
0 41 32 n1
 1 1 0   n2 
4
0 12 31 n3
A entrada ij da matriz é a probabilidade de uma internauta que está na página j carregar
numa ligação que a leva à página i, e é portanto igual a `(j,i)
`(j)
onde `(j, i) é o número de
ligações que une a página j à página i e `(j) é o número de total de ligações de j para
outras páginas.7
Note-se que a soma das entradas em cada coluna da matriz é 1 (é a soma das proba-
bilidades de ir parar a cada destino possı́vel partindo da página correspondente à coluna).
Uma tal matriz chama-se uma matriz de Markov. Estas matrizes são usadas para modelar
sistemas nos quais há vários estados (em número igual à dimensão da matriz) e há certas
probabilidades conhecidas de ocorrer uma transição entre os estados com a passagem do
tempo.
Quando é que o número de internautas em cada página permanece constante ao longo
do tempo? Quando o vetor (n1 , n2 , n3 ) é um vetor próprio da matriz
 
0 41 23
(36)  1 1 0 
4
0 21 13
com valor próprio 1. Um tal vetor próprio existe necessariamente porque a soma por linhas
da matriz transposta é 1, o que significa exatamente que (1, 1, 1) é um vetor próprio da
matriz transposta com valor próprio 1. Como o polinómio caracterı́stico de AT é igual ao
de A (porque det(A) = det(AT )) a matriz (36) tem também 1 como valor próprio.
Pode mostrar-se que existe necessariamente um vetor próprio de 1 com componentes
todas não negativas, e (com bastante generalidade) que se normalizarmos os vetores que
indicam o estado das páginas de modo a que a soma das entradas seja 1 (isto corresponde
a considerar a percentagem dos internautas em cada página em vez do número absoluto)
7Se uma página não tem ligações para outras assume-se que tem uma ligação para cada página.
o limite quando o tempo tende para ∞ do estado do sistema é o vetor próprio de 1

(normalizado), que é único.
Mais precisamente, se A é a matriz (36) que controla a transição entre estados e (p1 , p2 , p3 )
é um estado inicial qualquer (com pi ≥ 0 e p1 + p2 + p3 = 1), temos
 
p1
lim Ak  p2  = v
k→∞
p3
com v o único vetor próprio de 1 com entradas não negativas cuja soma é 1. Quando isto
acontece, o significado das componentes de v é clara: vi é a percentagem do tempo que
uma internauta surfando ao acaso naquelas páginas passaria na página i. É este número
que é usado como medida da relevância da página i - o seu PageRank.
No exemplo acima terı́amos que os vetores próprios de 1 da matriz (36) são as soluções
de     
−1 41 2
a 0
(
3 a = 34 b
(A − I3 )v = 0 ⇔  1 − 34 0   b  =  0  ⇔
0 1
−2 c 0 c = 34 b
2 3
Logo um vetor próprio de 1 é um múltiplo não nulo de ( 34 , 1, 34 ). Normalizando obtemos
(0.3, 0.4, 0.3)
Pelo que a página mais relevante é a página 2, sendo as outras duas igualmente relevantes.
Uma internauta surfando aleatoriamente entre estas três páginas passaria 40% do seu
tempo na página 2 e 30% em cada uma das outras duas páginas.
O algoritmo utilizado pelo Google para ordenar as páginas por relevância é seguramente
muito mais complicado mas o princı́pio básico é o que foi explicado acima. Ao pesquisarmos
um termo, o algoritmo começa por selecionar as páginas relacionadas com esse termo
(utilizando as etiquetas previamente atribuı́das a cada página) e analisa depois as ligações
entre essas páginas conforme descrito acima, listando-as depois por ordem de relevância.
Na realidade, no algoritmo original de Larry Page e Sergey Brin é também levada em
conta a possibilidade de uma internauta não seguir nenhum link na página em que se
encontra (e em vez disso usar um bookmark ou escrever diretamente um URL). Esta
possibilidade é considerada atribuindo uma probabilidade d de ir para qualquer outra
página da internet a partir de uma dada página, sendo (1 − d) a probabilidade de carregar
numa das ligações da página. O parâmetro d é medido experimentalmente (e é cerca de
15%). Tente descrever analiticamente este algoritmo modificado. A solução encontra-se na
página da Wikipedia do algoritmo PageRank.
12. Produtos Internos

É-vos familiar do ensino secundário o produto interno de vetores de R2 e R3 . Trata-se
de uma operação que produz um número real hv, wi a partir de dois vetores v e w. É dado
pelas fórmulas
h(x1 , x2 ), (y1 , y2 )i = x1 y1 + x2 y2 para (x1 , x2 ), (y1 , y2 ) ∈ R2
e
h(x1 , x2 , x3 ), (y1 , y2 , y3 )i = x1 y1 + x2 y2 + x3 y3 para (x1 , x2 , x3 ), (y1 , y2 , y3 ) ∈ R3
respetivamente. Em ambos os casos, o significado geométrico, do produto interno hv, wi é
kvkkwk cos α em que kxk designa o comprimento do vetor x e α é o ângulo entre v e w.
Em qualquer espaço vetorial é possı́vel definir uma estrutura desta natureza que é com-
pletamente caracterizada por alguns axiomas simples.
Definição 12.1. Seja V um espaço vetorial real. Um produto interno em V é uma função
h·, ·i : V × V → R
satisfazendo
(1) Bilinearidade: Para todos os α1 , α2 ∈ R e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi > 0 para todo o v 6= 0.
Observação 12.2. Tendo em conta a simetria de um produto interno, para verificar a
bilinearidade basta verificar a primeira (ou a segunda) das igualdades que caracterizam a
bilinearidade.
Exemplo 12.3. O produto interno usual (ou standard) em Rn é definido por
h(x1 , . . . , xn ), (y1 , . . . , yn )i = x1 y1 + x2 y2 + . . . + xn yn
É imediato verificar que as propriedades (1)-(3) na Definição 12.1 são verificadas. Este
produto interno generaliza o produto interno já conhecido nos casos em que n = 2 e 3.
Exemplo 12.4. Seja [a, b] um intervalo de R e V = C([a, b], R) o espaço vetorial das
funções contı́nuas de R para R (que é um subespaço vetorial do espaço vetorial de todas as
funções de R para R). Define-se h·, ·i : V × V → R pela expressão
ˆ b
hf, gi = f (x)g(x)dx
a
A expressão anterior faz sentido porque o produto de funções contı́nuas é contı́nua e uma
função contı́nua é integrável num intervalo compacto. Verifiquemos as propriedades (1)-(3)
da Definição 12.1:
´b ´b ´b
(1) hα1 f1 +α2 f2 , gi = a (α1 f1 (x)+α2 f2 (x))g(x)dx = α1 a f1 (x)g(x)dx+α2 a f2 (x)g(x)dx =
α1 hf1 , gi + α2 hf2 , gi
(2) É imediato uma vez que f (x)g(x) = g(x)f (x).
´b
(3) hf, f i = a f 2 (x)dx ≥ 0 por monotonia do integral. Se f (x) 6= 0 então existe
x0 ∈ [a, b] tal que f (x0 ) 6= 0. Como f é contı́nua isso significa que existe > 0 e
um intervalo J contendo x0 com interior não vazio tal que f (x)2 ≥ quando x ∈ J.
´b ´ ´
Mas então a f (x)2 dx ≥ J f (x)2 dx ≥ J dx > 0.
Observação 12.5. Se pensarmos numa função f como um “vetor indexado pelos números
reais” cuja componente x é o número f (x), e no integral como uma “soma em x” o segundo
exemplo acima é uma generalização natural do primeiro.
Existe também uma versão do conceito de produto interno para um espaço vetorial
complexo, que se chama um produto interno Hermiteano, ou simplesmente um produto
interno. O modelo será Cn , mas agora não podemos usar a fórmula que nos dá o produto
interno real porque perderı́amos a positividade (que é a chave para definir o comprimento
de vetores). A solução é conjugar um dos argumentos coordenada a coordenada, uma vez
que zz = |z|2 ≥ 0. No entanto, isso afeta necessariamente os outros dois axiomas da forma
seguinte.
Definição 12.6. Seja V um espaço vetorial complexo. Um produto interno em V é uma
função
h·, ·i : V × V → C
satisfazendo
(1) Sesquilinearidade: Para todos os α1 , α2 ∈ C e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria conjugada: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi é real e positivo para todo o v 6= 0.
Observação 12.7. Tendo em conta a simetria conjugada de um produto interno, para
verificar a sesquilinearidade basta verificar a primeira (ou a segunda) das igualdades que
caracterizam a sesquilinearidade.
Exemplo 12.8. O produto interno standard em Cn é a função h·, ·i : Cn ×Cn → C definida
pela expressão
h(z1 , . . . , zn ), (w1 , . . . , wn )i = z1 w1 + z2 w2 + . . . + zn wn
É imediato verificar as condições (1)-(3) da Definição 12.6. Por exemplo,
h(z1 , . . . , zn ), (z1 , . . . , zn )i = |z1 |2 + . . . + |zn |2 ≥ 0
e só se anula se z1 = · · · = zn = 0.
Um produto interno num espaço vetorial real ou complexo permite-nos introduzir noções
de comprimento e distância no espaço em questão.
Definição 12.9. Seja V um espaço vetorial e h·, ·i um produto interno em
p V . A norma
ou comprimento de um vetor v ∈ V é o número real não negativo kvk = hv, vi. Sendo
v, w ∈ V , a distância de v a w é o número real não negativo kv − wk.
Note-se que as noções de norma e comprimento para o produto interno usual em R2 ou
R3 são as habituais: p
k(x, y, z)k = x2 + y 2 + z 2
Exemplo 12.10. Em C2 com o produto interno usual,

p √ √
k(1 + i, −1)k = |1 + i|2 + 1 = 2 + 1 = 3
Em C([0, 1], R2 ) a distância de x a 1 é
ˆ 1
s s
3 1

(x − 1) = √1
kx − 1k = (x − 1)2 dx =
0 3
0 3
Definição 12.11. Seja V um espaço vetorial e h·, ·i um produto interno em V . Um
subconjunto S ⊂ V diz-se ortogonal se hv, wi = 0 para todos os v, w ∈ S distintos. Um
subconjunto S ⊂ V diz-se ortonormado se S é ortogonal e kvk = 1 para todo o v ∈ S.
Exemplo 12.12. O conjunto {(1, 1), (1, −1)} é ortogonal em R2 para o produto interno
usual,
√ uma vez que h(1, 1), (1 − 1)i = 1 − 1 = 0. Não é ortonormado uma vez que k(1, 1)k =
2 6= 1, mas dividindo
cada
um dos
vetores pelo seu comprimento obtemos o conjunto
1 1 1 1
ortonormado { √2 , √2 , √2 , − √2 }.
As funções sen x e 1 são ortogonais em C([0, 2π], R) uma vez que
ˆ 2π
hsen x, 1i = sen xdx = − cos x|2π
0 = 0
0
n n
As bases canónicas de R e C são conjuntos ortonormados para os produtos internos
usuais.
12.13. Representação matricial de um produto interno. Seja V um espaço vetorial
com produto interno h·, ·i e suponhamos que B = (v1 , . . . , vn ) é uma base para V .
Podemos escrever dois vetores v, w ∈ V em função da base B
v = α1 v1 + . . . + αn vn , w = β1 v1 + . . . + βn vn ,
Vamos agora usar a bilinearidade/sesquilinearidade para obter uma fórmula para o produto
interno em termos do produto de matrizes. Consideraremos o caso complexo mas note-
se que, uma vez que para α real temos α = α, estamos também a fazer o caso real
simultaneamente. Usando linearidade conjugada na primeira variável temos
hv, wi = hα1 v1 + . . . αn vn , wi = α1 hv1 , wi + . . . + αn hvn , wi
Usando a linearidade na segunda coordenada temos para cada i
hvi , wi = hvi , β1 v1 + . . . βn vn i = β1 hvi , v1 i + . . . + βn hvi , vn i
e substituindo na primeira expressão obtemos a seguinte expressão para o produto interno
hv, wi = α1 β1 hv1 , v1 i+. . .+α1 βn hv1 , vn i+α2 β1 hv2 , v1 i+. . .+αn β1 hvn , v1 i+. . .+αn βn hvn , vn i
Vemos assim que o produto interno é completamente determinado pelo conjunto de n2
escalares hvi , vj i com i, j = 1, . . . , n. Identificando escalares com matrizes 1 × 1 a expressão
anterior pode ser escrita matricialmente na forma

hv1 , v1 i hv1 , v2 i · · · hv1 , vn i β1
  
 hv2 , v1 i hv2 , v2 i · · · hv2 , vn i   β2 
(37) α1 α2 · · · αn  .. .. ..  . 
  .. 
 . . .
hvn , v1 i hvn , v2 i · · · hvn , vn i βn
A matriz n × n na expressão (37) chama-se a matriz da métrica ou matriz de Gram para
o produto interno com respeito à base B, e iremos denotá-la por
GB = [hvi , vj i]
Note-se que para chegar à expressão (37) usámos apenas a propriedade (1) das Definições
12.1 e 12.6 pelo que a expressão matricial (37) se aplica a funções de V ×V para os escalares
que satisfaçam apenas o axioma (1) (ditas funções bilineares no caso real, e sesquilineares
no caso complexo). As propriedades (2) e (3) das definições impõem condições adicionais
sobre a matriz GB .
Quanto à condição (2), escrevendo gij para a entrada ij da matriz GB , temos no caso
real
gij = hvi , vj i = hvj , vi i = gji ⇔ GB = GTB
ou seja, a matriz da métrica é simétrica. No caso complexo temos
T
gij = hvi , vj i = hvj , vi i = gji ⇔ GB = GB
Diz-se que a matriz GB é hermiteana. Reciprocamente, se G é uma matriz que satisfaz
estas condições é imediato verificar que a função
T
hv, wi = [v]B GB [w]B
satisfaz as condições (1) e (2) nas definições 12.1 e 12.6.
Veremos em breve que as matrizes simétricas ou hermiteanas são sempre diagonalizáveis
com valores próprios reais. Daı́ segue facilmente da condição (3) que os valores próprios
de uma matriz da métrica têm que ser positivos: se GB v = λv então
hv, vi = v T GB v = λv T v > 0 ⇒λ>0
Por outro lado veremos que os vetores próprios correspondentes a valores próprios distintos
de uma tal matriz são ortogonais e então é fácil de ver que, reciprocamente, uma matriz
simétrica ou hermiteana com valores próprios positivos determina um produto interno em
Rn ou Cn respetivamente.
Exemplo 12.14. Consideremos a restrição do produto interno usual em R3 ao subespaço
V = {(x, y, z) ∈ R3 : x + y + z = 0}. Uma base para V é dada, por exemplo, pelos vetores
v1 = (1, −1, 0) e v2 = (0, 1, −1). A matriz da métrica para o produto interno em V com
respeito à base B = (v1 , v2 ) é portanto

hv1 , v1 i hv1 , v2 i 2 −1
GB = =
hv2 , v1 i hv2 , v2 i −1 2

1 −1
Dados vetores v, w ∈ V com [v]B = e [w]B = temos
2 1

2 −1 −1 −3
hv, wi = 1 2 = 1 2 =3
−1 2 1 3
Podemos confirmar este resultado fazendo as contas em R3 : Temos
v = 1 · (1, −1, 0) + 2(0, 1, −1) = (1, 1, −2), w = −1 · (1, −1, 0) + 1 · (0, 1, −1) = (−1, 2, −1)
logo
hv, wi = 1 · (−1) + 1 · 2 + (−2) · (−1) = −1 + 2 + 2 = 3.
O ponto do exemplo anterior é o seguinte. Mesmo que estejamos interessados apenas
no produto interno usual em Rn (isto é na noção usual de comprimento e ângulo) em
certas situações estaremos interessados em considerar apenas vetores que estão em certos
subespaços (imaginemos por exemplo que um avião voa num dado plano) e para fazer
contas nesse plano é mais prático escolher coordenadas no plano (da mesma forma que
à superfı́cie da Terra utilizamos duas coordenadas para descrever um ponto). No plano
não há em geral coordenadas canónicas como em Rn e numas coordenadas arbitrárias que
escolhamos, a expressão do produto interno não será aquela a que estamos acostumados,
mesmo que o produto interno em questão provenha do produto interno usual em Rn .
Observação 12.15. Note-se que uma base B para um espaço vetorial V é ortogonal com
respeito a um produto interno sse a matriz da métrica GB é diagonal (e então as entradas
diagonais são positivas e iguais às normas dos vetores da base ao quadrado) e que B é
ortonormada (isto é um conjunto ortonormado) sse GB é a matriz identidade.
Suponhamos agora que B, B 0 são duas bases para o espaço vetorial V com produto
interno. Como se relacionam as matrizes da métrica com respeito às duas bases?
Sendo S = SB→B 0 a matriz de mudança de coordenadas da base B para a base B 0 temos
para qualquer x ∈ V
[x]B 0 = S[x]B
substituindo na expressão para a matriz da métrica na base B 0 temos (novamente o caso
real obtém-se omitindo os conjugados)
T T T T
hv, wi = [v]B 0 GB 0 [w]B 0 = S[v]B GB 0 (S[w]B ) = [v]B S GB 0 S[w]B
onde usámos que AB = AB e (AB)T = B T AT . Tendo em conta a expressão
T
hv, wi = [v]B GB [w]B
que caracteriza a matriz da métrica com respeito à base B conclui-se que
T
(38) GB = S GB 0 S ou, no caso real, GB = S T GB 0 S
Estas fórmulas que traduzem como a expressão para o produto interno muda mediante
uma mudança de coordenadas são inteiramente análogas à fórmula (19) que relaciona as
expressões matriciais de uma transformação linear em relação a bases distintas (mas só
T
coincidem se S −1 = S ).
12.16. Projeção ortogonal de um vetor sobre um vetor não nulo. Seja V um espaço
vetorial com produto interno, v ∈ V e u ∈ V \ {0} um vetor não nulo. Define-se a projeção
ortogonal de v sobre u (com respeito ao produto interno dado) por
u hu, vi u u
(39) proju (v) = hu, vi 2
= u=h , vi
kuk hu, ui kuk kuk
As expressões acima são todas iguais pela definição de norma e pela linearidade na primeira
1
variável (no caso complexo note-se que o escalar kuk é real e portanto igual ao seu conju-
gado).
Quando V = R2 ou R3 com o produto interno usual, a definição anterior coincide com a
u
noção de projeção ortogonal já estudada no ensino secundário. De facto o vetor kuk é um
versor da direção determinada por u (isto é, tem a mesma direção e sentido e comprimento
1). O escalar que multiplica este versor é

u u
h kuk kvk cos α = 1 · kvk cos α = kvk cos α
, vi =
kuk
com α o ângulo entre u e v, pelo que a expressão 39 é, neste caso, a expressão familiar do
ensino secundário.
Exemplo 12.17. A projeção ortogonal de (1, −1, 2) sobre o vetor (0, 1, 1) com respeito ao
produto interno usual em R3 é
h(1, −1, 2), (0, 1, 1)i
(0, 1, 1) = 21 (0, 1, 1) = 0, 12 , 12

h(0, 1, 1), (0, 1, 1)i
Note-se que proju (v) é colinear com u e que a projeção permite escrever um vetor qual-
quer v como a soma de um vetor colinear com u e outro ortogonal a u:
v = (v − proju (v)) + proju (v)
sendo que
hu, vi hu, vi
hu, v − proju (v)i = hu, v − ui = hu, vi − hu, ui = 0
hu, ui hu, ui
Na realidade é fácil verificar que a função P : V → V definida por P (v) = proju (v) é uma
projeção (com imagem a reta gerada por u), isto é, que P 2 = P o mesmo acontecendo
portanto com Id −P que calcula a componente de v ortogonal a u (ver o Exercı́cio 9 da
Ficha 11).
Da consideração da componente ortogonal a um vetor u, vêm duas desigualdades fun-
damentais.
Proposição 12.18. Seja V um espaço vetorial com produto interno h·, ·i, e u, v ∈ V .
Então
(i) Desigualdade de Cauchy-Schwarz: |hu, vi| ≤ kukkvk
(ii) Desigualdade triangular: ku + vk ≤ kuk + kvk
A igualdade verifica-se na primeira desigualdade se e só se u e v são colineares.
Dem. (i) Podemos assumir sem perda de generalidade que u 6= 0 (pois nesse caso 0 =
|hu, vi| = kukkvk e u, v são colineares). Nesse caso temos, pela positividade do
produto interno
hu, vi hu, vi
0 ≤ kv − proju (v)k2 = hv − u, v − ui
hu, ui hu, ui
hu, vi hu, vi hu, vi hu, vi
= hv, vi − hu, vi − hv, ui + hu, ui
hu, ui hu, ui hu, ui hu, ui
|hu, vi|2
= kvk2 −
kuk2
e esta desigualdade é equivalente a
|hu, vi|2 ≤ kuk2 kvk2
que, tomando raı́zes quadradas, é a desigualdade de Cauchy-Schwarz. A igualdade
verifica-se apenas quando v − proju (v) = 0 e nesse caso v é um múltiplo escalar de u.
(ii) Temos
(40) ku + vk2 = hu + v, u + vi = hu, ui + hu, vi + hv, ui + hv, vi
Uma vez que z + z = 2 Re(z) ≤ 2|z| temos
hu, vi + hv, ui = 2 Re(hu, vi) ≤ 2|hu, vi| ≤ 2kukkvk
onde na segunda desigualdade aplicámos a desigualdade de Cauchy-Schwarz. Substi-
tuindo em (40) obtemos
ku + vk2 ≤ kuk2 + 2kukkvk + kvk2 = (kuk + kvk)2
que é equivalente à desigualdade triangular.

Observação 12.19. (i) A desigualdade triangular chama-se assim porque v, w, v + w
formam as arestas de um triângulo em V e a desigualdade diz precisamente que o
comprimento de um dos lados de um triângulo é sempre menor ou igual à soma do
comprimento dos dois outros lados.
(ii) Quando u, v são ortogonais, a expressão (40) é o Teorema de Pitágoras: ku + vk2 =
kuk2 + kvk2 .
Definição 12.20. Seja V um espaço vetorial real e v, w ∈ V vetores não nulos. Define-se
o ângulo entre v e w como o único α ∈ [0, π] tal que
hv, wi
cos α =
kvkkwk
(Isto faz sentido porque, pela desigualdade de Cauchy-Schwarz a expressão do lado direito
do sinal de igual pertence ao intervalo [−1, 1].)
Exemplo 12.21. O ângulo entre as funções x e x2 em C([0, 1], R) é

´1 3 1
√
hx, x2 i x dx 15
arccos 2
= q´ 0 ´ = arccos q4 = arccos
kxkkx k 1 2 1 11 4
0
x dx 0 x4 dx 35
A projeção segundo um vetor dá-nos uma maneira simples de obter um conjunto ortog-
onal com a mesma expansão linear a partir de um conjunto linearmente independente e,
em particular, de obter uma base ortogonal a partir de uma base.
Proposição 12.22 (Método de ortogonalização de Gram-Schmidt). Seja V um
espaço vetorial com produto interno e {v1 , . . . , vk } ⊂ V um conjunto linearmente indepen-
dente. Então os vetores definidos indutivamente pelas fórmulas
w1 = v1
w2 = v2 − projw1 (v2 )
w3 = v3 − projw1 (v3 ) − projw2 (v3 )
.. ..
. .
wk = vk − projw1 (vk ) − . . . − projwk−1 (vk )
formam um conjunto ortogonal {w1 , . . . , wk } tal que, para cada i = 1, . . . , k, temos
L({v1 , . . . , vi }) = L({w1 , . . . , wi })
Antes de vermos a demonstração vamos fazer algumas observações.
Definição 12.23. Seja V um espaço vetorial com um produto interno e S ⊂ V um sub-
conjunto. Define-se
S ⊥ = {v ∈ V : hv, xi = 0 para todo o x ∈ S}
É imediato verificar que S ⊥ é um subespaço vetorial de V : claramente 0 ∈ S ⊥ e se
v1 , v2 ∈ S ⊥ e α1 , α2 ∈ R temos hα1 v1 + α2 v2 , xi = α1 hv1 , xi + α2 hv2 , xi = 0 para todo o
x ∈ S, pelo que α1 v1 + α2 v2 ∈ S ⊥ .
Proposição 12.24. S ⊥ = L(S)⊥
Dem. Uma vez que S ⊂ L(S), é evidente que L(S)⊥ ⊂ S ⊥ (se um vetor é ortogonal a
todos os elementos de L(S), certamente é também ortogonal a todos os vetores de S).
Reciprocamente, se v ∈ L(S), existem vetores v1 , . . . , vk em S e escalares α1 , . . . , αk tais
que v = α1 v1 + . . . + αk vk . Dado w ∈ S ⊥ , temos
hw, vi = hw, α1 v1 + . . . + αk vk i = α1 hw, v1 i + . . . + αk hw, vk i = 0
Logo w ∈ L(S)⊥ . Isso mostra que S ⊥ ⊂ L(S)⊥ e conclui a demonstração.
Exemplo 12.25. (i) Se A ∈ Mm×n (R) então N (A) = EL(A)⊥ ⊂ Rn (onde o produto
interno considerado é o usual). De facto, pela definição do produto de matrizes,
x ∈ Rn está no núcleo de A sse é ortogonal às linhas de A para o produto interno
usual em Rn , e pela Proposição anterior isto é o mesmo que ser ortogonal ao espaço
das linhas.
(ii) Se B é uma base de V (ou mais geralmente um conjunto de geradores) então B ⊥ =

{0}. De facto, B ⊥ = L(B)⊥ = V ⊥ . Mas a positividade do produto interno diz-nos
que o único vetor que é perpendicular a si próprio é o vetor 0. Logo V ⊥ = {0}.
Dem. da Proposição 12.22. Vamos usar indução em i para ver que {w1 , . . . , wi } é um con-
junto ortogonal e L({v1 , . . . , vi }) = L({w1 , . . . , wi }). A base da indução é o caso i = 1, que
é óbvio porque um conjunto com um único vetor não nulo é um conjunto ortogonal e, por
definição, w1 = v1 .
Seja i > 1 e assumamos por indução que o resultado é válido para i − 1. Vejamos
primeiro que L({v1 , . . . , vi }) = L({w1 , . . . , wi }). Temos que verificar duas inclusões
• Por hipótese de indução v1 , . . . , vi−1 ∈ L({w1 , . . . , wi−1 }) ⊂ L({w1 , . . . , wi }). Uma
vez que proju (v) é um múltiplo de u, a seguinte reformulação da definição de wi
vi = wi + projw1 (vi ) + . . . + projwi−1 (vi )
mostra que vi ∈ L({w1 , . . . , wi }). Conclui-se que L({v1 , . . . , vi }) ⊂ L({w1 , . . . , wi })
• Novamente, por hipótese de indução, temos L({w1 , . . . , wi−1 }) ⊂ L({v1 , . . . , vi }).
Na expressão para wi
wi = vi − projw1 (vi ) − . . . − projwi−1 (vi )
os termos precedidos por um sinal menos formam uma combinação linear de w1 , . . . , wi−1
e portanto, por hipótese de indução, de v1 , . . . , vi−1 . Conclui-se que wi ∈ L({v1 , . . . , vi })
e portanto que L({w1 , . . . , wi }) ⊂ L({v1 , . . . , vi }).
Para ver que {w1 , . . . , wi } é um conjunto ortogonal basta-nos ver que hwj , wi i = 0 para
j < i pois a hipótese de indução diz-nos que hwj , wl i = 0 para j 6= l quando j, l < i. Ora
hwj , wi i = hwj , vi − projw1 (vi ) − . . . − projwi−1 (vi )i
hw1 , vi i hwi−1 , vi i
= hwj , vi i − hwj , w1 i − . . . − hwj , wi−1 i
hw1 , w1 i hwi−1 , wi−1 i
hw1 , vi i hwi−1 , vi i
= hwj , vi i − hwj , w1 i − . . . − hwj , wi−1 i
hw1 , w1 i hwi−1 , wi−1 i
Do lado direito do sinal de igual, novamente pela hipótese de indução que {w1 , . . . , wi−1 } é
ortogonal, o único termo hwj , wk i que é não nulo é o termo correspondente a k = j portanto
hwj , vi i
hwj , wi i = hwj , vi i − 0 − . . . − hwj , wj i − . . . − 0 = hwj , vi i − hwj , vi i = 0
hwj , wj i
Exemplo 12.26. Vamos achar uma base ortonormada para o subespaço
V = {(x, y, z, w) ∈ R4 : x + y + w = 0} ⊂ R4
Uma base para este subespaço é por exemplo
{(1, 0, 0, −1), (0, 1, 0, −1), (0, 0, 1, 0)}
Vamos aplicar o processo de ortogonalização de Gram-Schmidt dividindo os vetores resul-

tantes pelas suas normas para obter uma base ortonormada.
O primeiro vetor da base ortonormada será
(1, 0, 0, −1)
w1 = = ( √12 , 0, 0, − √12 )
k(1, 0, 0, −1)k
Obtemos um vetor ortogonal através da expressão
w2 = (0, 1, 0, −1) − hw1 , (0, 1, 0, −1)iw1 = (0, 1, 0, −1) − √1 ( √1 , 0, 0, − √1 ) = (− 12 , 1, 0, − 12 )
2 2 2
Na expressão anterior não foi necessário dividir por hw1 , w1 i porque kw1 k = 1. Dividindo
pela norma obtemos o segundo vetor da base ortonormada
1
q
w̃2 = (− , 1, 0, − 2 ) = 23 (− 12 , 1, 0, − 12 )
1 1
kw2 k 2
O vetor v3 = (0, 0, 1, 0) já é ortogonal a w1 e w̃2 e tem norma 1, pelo que podemos tomar
para base ortonormada de V o conjunto
q
{( √2 , 0, 0, − √2 ), (− √6 , 23 , 0, − √16 ), (0, 0, 1, 0)}
1 1 1
As bases ortogonais são extremamente úteis porque tornam os cálculos muito mais fáceis.
Começamos por observar que um conjunto ortogonal sem vetores nulos é necessariamente
linearmente independente
Proposição 12.27. Seja V um espaço vetorial com produto interno e S ⊂ V \ {0} um
conjunto ortogonal de vetores não nulos. Então S é linearmente independente.
Dem. Sejam v1 , . . . , vk elementos de S e suponhamos que
(41) α1 v1 + . . . + αk vk = 0
Queremos ver que os coeficientes αi são todos nulos. Como S é ortogonal temos hvi , vj i = 0
para i 6= j. Fazendo o produto interno da equação com vi obtemos
hvi , α1 v1 + . . . + αk vk i = hvi , 0i = 0
Do lado esquerdo temos
α1 hvi , v1 i + . . . + αi hvi , vi i + . . . + αk hvi , vk i = α1 · 0 + . . . + αi kvi k2 + . . . + αk · 0
Portanto αi kvi k2 = 0. Como vi 6= 0, conclui-se que αi = 0.
O resultado seguinte, embora muito simples, é uma das principais razões para a utilização
de bases ortogonais ou ortonormais. Juntamente com as noções de valor e vetor próprio
será um dos resultados de Álgebra Linear que mais vezes será utilizado em cadeiras de
engenharia. Diz essencialmente que é muito fácil calcular as coordenadas de um vetor
numa base ortogonal. Não é necessário resolver um sistema linear, basta fazer uma conta
muito simples.
Proposição 12.28. Seja B = (v1 , . . . , vn ) uma base ortogonal para o espaço com produto
interno V . Então dado v ∈ V as coordenadas de v na base B são dadas pela expressão
 hv1 ,vi 
hv1 ,v1 i
[v]B = 
 .. 
. 
hvn ,vi
hvn ,vn i
Dem. Sendo v ∈ V , temos a mostrar que

hv1 , vi hvn , vi hv1 , vi hvn , vi
v= v1 + . . . + vn ⇔ v − v1 − . . . − vn = 0
hv1 , v1 i hvn , vn i hv1 , v1 i hvn , vn i
De acordo com o Exemplo 12.25(ii) basta ver que o vetor do lado esquerdo da segunda
igualdade é ortogonal aos elementos da base B. Ora
hv1 , vi hvn , vi hv1 , vi hvn , vi
hvi , v − v1 − . . . − vn i = hvi , vi − hvi , v1 i − . . . − hvi , vn i
hv1 , v1 i hvn , vn i hv1 , v1 i hvn , vn i
hvi , vi
= hvi , vi − 0 − . . . − hvi , vi i − . . . − 0
hvi , vi i
= hvi , vi − hvi , vi = 0

Exemplo 12.29. Numa base ortonormada as contas da Proposição anterior são ainda
mais simples porque os denominadores das expressões para as coordenadas são 1. Con-
siderando a base ortonormada
q
1 1 1 2 1
B = ( √2 , 0, 0, − √2 ), (− √6 , 3 , 0, − √6 ), (0, 0, 1, 0))
do Exemplo 12.26 e o vetor (1, 1, 3, −2) ∈ V temos

h( √12 , 0, 0, − √12 ), (1, 1, 3, −2)i √3
   
q 2q
[(1, 1, 3, −2)]B =  h(− √1 , 23 , 0, − √1 ), (1, 1, 3, −2)i  =  √1 2
   
6 6 6
+ 3

h(0, 0, 1, 0), (1, 1, 3, −2)i 3
Uma base ortogonal para um subespaço pode ser usada para definir a projeção ortogonal
nesse subespaço.
Definição 12.30. Seja V um espaço vetorial com produto interno e U ⊂ V um subespaço
finitamente gerado. A projeção ortogonal de V em U é a transformação linear PU : V → V
definida pela fórmula
(42) PU (v) = proju1 (v) + . . . + projuk (v)
onde {u1 , . . . , uk } é uma base ortogonal de U .
PU é uma transformação linear pois é uma soma de transformações lineares. Não é no
entanto imediatamente óbvio que a fórmula (42) seja independente da escolha da base
ortogonal para o subespaço U . Isso é uma consequência do seguinte resultado.
Proposição 12.31. Seja V um espaço com produto interno e U um subespaço vetorial

finitamente gerado. A transformação linear PU : V → V definida pela expressão (42)
verifica
(1) PU2 = PU (ou seja, PU é uma projeção).
(2) PU (V ) = U e N (PU ) = U ⊥ .
Portanto V = U ⊕ U ⊥ (isto é V = U + U ⊥ e U ∩ U ⊥ = {0}) sendo a decomposição única
de um vetor de V em vetores de U e U ⊥ dada pela expressão
∈U ∈U ⊥
z }| { z }| {
v = PU (v) + (v − PU (v))
Dem. Exercı́cio.
A Proposição anterior mostra que PU é independente da escolha da base ortogonal para
U que aparece na fórmula 42 uma vez que uma projeção é completamente determinada
pela sua imagem e o seu núcleo. De facto, vimos na aula prática (exercı́cio 9 da Ficha 11)
que uma transformação linear é uma projeção sse é diagonalizável e tem a sua imagem
como espaço próprio de 1.
Uma aplicação interessante da Proposição anterior é o cálculo da distância de um ponto
x de um espaço vetorial com produto interno V a um subespaço U de V . A distância é
por definição
d(x, U ) = inf{kx − uk : u ∈ U }
sendo que o ı́nfimo existe porque o conjunto das distâncias é limitado inferiormente (por
0). Dado um ponto qualquer u ∈ U podemos escrever o vetor x − u como
x − u = (x − PU (x)) + (PU (x) − u)
uma vez que x − PU (x) ∈ U ⊥ e PU (x) − u ∈ U , pelo Teorema de Pitágoras, temos
kx − uk2 = kx − PU (x)k2 + kPU (x) − uk2 ≥ kx − PU (x)k2 ⇔ kx − uk ≥ kx − PU (x)k
Uma vez que PU (x) ∈ U , isso mostra que d(x, U ) = kx − PU (x)k e, portanto, que PU (x) é
o ponto de U mais próximo de x.
Este mesmo argumento pode facilmente ser adaptado para calcular distâncias de pontos a
planos v +U que não passam pela origem ou a distância entre planos que não se intersetem.
A distância entre dois conjuntos S, T ⊂ V é definida pela expressão
d(S, T ) = inf{kx − yk : x ∈ S, y ∈ T }.
Exemplo 12.32. Vamos achar a distância (para o produto interno usual) do ponto (1, 2, −1)
ao plano H = {(x, y, z) ∈ R3 : x + y + 2z = 2}.
A direção ortogonal ao plano é (1, 1, 2). A reta ortogonal ao plano que passa por (1, 2, −1)
tem equação paramétrica
(1, 2, −1) + t(1, 1, 2) = (1 + t, 2 + t, −1 + 2t)
e interseta H quando
1
(1 + t) + (2 + t) + 2(−1 + 2t) = 2 ⇔ 6t = 1 ⇔ t = 6
O ponto v = ( 67 , 13
6
, − 32 ) de interseção desta reta com H é o ponto de H mais próximo
de (1, 2, −1). De facto se w ∈ H for outro ponto, temos como antes, pelo Teorema de
Pitágoras, que
kw − (1, 2, −1)k2 = kw − vk2 + kv − (1, 2, −1)k2 ≥ kv − (1, 2, −1)k2
uma vez que v − (1, 2, −1) (que tem a direção de (1, 1, 2)) e w − v (que pertence ao plano
paralelo a H que passa pela origem) são perpendiculares.
Conclui-se que a distância de (1, 2, −1) a H é k 61 (1, 1, 2)k = √16 .
12.33. O método dos mı́nimos quadrados. 8 Seja A uma matriz m × n. Mesmo que o
sistema linear Ax = b seja impossı́vel, podemos tentar encontrar o valor de x que está mais
próximo de constituir uma solução no sentido em que a distância de Ax a b é minimizada.
O conjunto {Ax : x ∈ Rn } é um subespaço de Rm , nomeadamente o espaço das colunas
de A, EC(A). Como vimos acima, Ax estará o mais próximo possı́vel de um ponto b ∈ Rm
quando
Ax − b ∈ EC(A)⊥
mas, uma vez que EC(A) = EL(AT ), pelo Exemplo 12.25(i) temos
EC(A)⊥ = EL(AT )⊥ = N (AT )
Assim, Ax será o ponto mais próximo de b quando se verifica a equação dos mı́nimos
quadrados para x
(43) AT (Ax − b) = 0 ⇔ AT Ax = AT b
Note-se que a solução pode não ser única (se N (A) 6= 0) mas o sistema acima tem sempre
solução, que minimiza a distância a b, uma vez que o sistema traduz exatamente a condição
de Ax ser o ponto de EC(A) mais próximo de b, e este ponto existe sempre).
Este método é extremamente útil na prática. Frequentemente temos dados experimentais
que queremos ajustar a uma lei conhecida, que depende de parâmetros. Os inevitáveis erros
experimentais terão como consequência que nenhuma escolha dos parâmetros se adequará
às medições, mas este método permite achar quais os valores dos parâmetros que melhor
se adequam às medições efetuadas.
Exemplo 12.34. Vamos determinar a reta y = ax + b que melhor aproxima os três pontos
(não colineares) (0, −2), (1, 3), (4, 5) ∈ R2 . Se existisse uma reta que passasse pelos três
pontos, os coeficientes a, b seriam soluções do sistema

a · 0 + b = −2
   
 0 1 −2
a
a·1+b=3 ⇔ 1 1  = 3 
b
4 1 5

a · 4 + b = 5
Este sistema não tem solução mas o método dos mı́nimos quadrados dá-nos os coeficientes
a, b tais que a soma
(a · 0 + b − (−2))2 + (a · 1 + b − 3)2 + (a · 4 + b − 5)2
8Esta discussão é adaptada do tratamento deste método em [D].
é mı́nima (é isto que dá o nome ao método). Temos que achar a solução do sistema
   
0 1 −2
0 1 4  a 0 1 4  17 5 a 23
1 1  = 3  ⇔ =
1 1 1 b 1 1 1 5 3 b 6
4 1 5
que é
39
a 1 3 −5 23 26
= =
b26 −5 17 6 − 12
pelo que a reta que melhor aproxima os pontos dados (no sentido dos mı́nimos quadrados)
é
y = 39
26
x − 12
Observação 12.35. Pouco após a sua descoberta, em 1801, Ceres ficou tapado pelo Sol.
Foi para prever (com sucesso) o sı́tio onde Ceres iria aparecer depois de passar por detrás
do Sol, com base nas poucas observações que se tinham conseguido anteriormente, que
Gauss inventou o método dos mı́nimos quadrados.
12.36. Transformações unitárias e (anti)-hermitianas. Para terminar vamos falar
um pouco das transformações lineares de um espaço vetorial munido de um produto interno
nele próprio. Começamos por aquelas que preservam o produto interno e portanto ângulos
e distâncias.
Definição 12.37. Seja V um espaço vetorial com produto interno h·, ·i. Uma trans-
formação linear T : V → V tal que
hT (v), T (w)i = hv, wi para todos os v, w ∈ V
diz-se ortogonal quando V é um espaço vetorial real e unitária quando V é um espaço
vetorial complexo.
Exemplo 12.38. Consideremos Rn com o seu produto interno usual e T : Rn → Rn a
transformação linear definida por T (x) = Ax com A uma matriz n × n (onde, como
habitualmente, estamos a identificar Rn com as matrizes coluna n × 1). O produto interno
de dois vetores x e y de Rn pode escrever-se matricialmente na forma xT y. Portanto T é
ortogonal se e só se
(44) (Ax)T (Ay) = xT y ⇔ xT AT Ay = xT y para todos os x, y ∈ Rn
Isto acontece se e só se
(45) AT A = In
De facto, é claro que se A satisfaz a condição (45) então satisfaz (44). Reciprocamente se
(44) é satisfeita então tomando para x e y o i-ésimo e j-ésimo vetores da base canónica de
Rn respetivamente, a expressão xT AT Ay calcula a entrada ij da matriz AT A que é portanto
1 quando i = j e 0 caso contrário, ou seja, a matriz identidade.
As matrizes de Mn×n (R) que satisfazem (45) chamam-se matrizes ortogonais. Note-se
que esta equação é também equivalente a dizer que A é invertı́vel com inversa AT .
Uma vez que as linhas da matriz AT são as colunas de A, a condição (45) diz que uma
matriz é ortogonal sse as suas colunas formam uma base ortonormada para Rn .
Assim, quando multiplicamos a matriz A por um vetor x ∈ Rn , obtemos um vetor que tem
as mesmas coordenadas que x mas numa base ortonormada diferente da canónica. Isto
corresponde a uma rotação e/ou reflexão do espaço. Ver o Exemplo 12.42 abaixo.
Consideremos agora o caso inteiramente análogo em que V = Cn com o produto in-
terno usual, e T x = Ax com x ∈ Cn . Temos agora que o produto interno é definido
matricialmente pela expressão hx, yi = xT y e então T é unitária se
T T
xT A Ay = xT y ⇔ A A = In
As matrizes que satisfazem esta condição dizem-se unitárias. Novamente uma matriz
T
é unitária sse é invertı́vel e a sua inversa é A , sse as suas colunas formam uma base
ortonormada para Cn .
É conveniente simplificar a notação para a matriz transposta conjugada.
T
Definição 12.39. Seja A ∈ Mm×n (C). A matriz transposta conjugada A é denotada por
A∗ , e é por vezes chamada a matriz transconjugada de A. Temos portanto A∗ ∈ Mn×m (C)
com entrada ij dada por aji .
Proposição 12.40. Seja V um espaço vetorial complexo com produto interno h·, ·i e
T : V → V uma transformação unitária. Então
(1) Os valores próprios de T são complexos com módulo 1.
(2) Vetores próprios de T correspondentes a valores próprios distintos são ortogonais.
Dem. Seja v um vetor próprio de T . Sendo T (v) = λv temos
kT (v)k2 = hT (v), T (v)i = hλv, λvi = λλhv, vi = |λ|2 kvk2
Por outro lado, como T é unitária temos hT (v), T (v)i = hv, vi = kvk2 . Portanto kvk2 =
|λ|2 kvk2 , e como v 6= 0, isto significa que |λ| = 1.
Suponhamos agora que T (v) = λv e T (w) = µw com λ, µ distintos. Então
hv, wi = hT v, T wi = hλv, µwi = λµhv, wi
ou seja
(1 − λµ)hv, wi = 0 ⇔ λµ = 1 ou hv, wi = 0
Como λ é um complexo com módulo 1, λ = λ1 logo a primeira condição na disjunção acima
é equivalente a µ = λ. Conclui-se que hv, wi = 0, isto é, que v e w são ortogonais.
Observação 12.41. Se encararmos uma matriz n × n real A como uma matriz complexa,
dizer que A é ortogonal ou unitária é equivalente (uma vez que A = A). Vemos portanto
que os valores próprios de uma matriz ortogonal são complexos unitários e que os seus
vetores próprios são ortogonais em Cn .
cos α − sen α
sen α cos α
é ortogonal, como se verifica imediatamente. Geometricamente corresponde à rotação de

um ângulo α no sentido anti-horário (desenhe o efeito da matriz nos vetores da base
canónica).
Note-se que os valores próprios (complexos) desta matriz são as soluções de
(cos α − λ)2 + sen2 α = 0 ⇔ λ = cos α ± i sen α
Os vetores próprios (também necessariamente complexos) são as soluções de

cos α − (cos α ± i sen α) − sen α a a ±i
=0⇔ =λ
sen α cos α − (cos α ± i sen α) b b 1
e são ortogonais para o produto interno usual em C2 .
Definição 12.43. Sejam V, W espaços vetoriais reais ou complexos de dimensão finita
com produto interno e T : V → W uma transformação linear. A transformação adjunta
de T é a única transformação linear T ∗ : W → V tal que
(46) hT v, wi = hv, T ∗ wi para todos os v ∈ V, w ∈ W.
Temos que verificar que esta definição faz sentido. Começamos por notar que, dado
w ∈ W , há um único vetor T ∗ w que satisfaz a relação hT v, wi = hv, T ∗ wi para todo o
v ∈ V . De facto sendo B = (v1 , . . . , vn ) uma base ortonormada para V , o escalar hvi , T ∗ wi,
que é a componente i de [T ∗ w]B , tem de ser necessariamente igual a hT vi , wi. Portanto
T ∗ w = hT v1 , wiv1 + . . . + hT vn , wivn
Por outro lado, é um exercı́cio simples verificar que se definirmos T ∗ w pela fórmula anterior,
T ∗ é uma transformação linear que satisfaz a igualdade na definição de transformação
adjunta.
No caso em que V = Cn , W = Cm , e T v = Av é determinada por uma matriz A ∈
Mm×n (C), a equação (46) traduz-se em
(Av)T w = v T (T ∗ w) para todo o v, w ∈ Cn ⇔ v T A∗ w = v T (T ∗ w)
pelo que a transformação adjunta T ∗ é a transformação linear de Cm para Cn determi-
nada pela matriz transposta conjugada A∗ . No caso real, a transformação adjunta é a
transformação determinada pela matriz transposta.
Observação 12.44. Em termos da identificação do dual de um espaço vetorial com um
produto interno com o próprio espaço vetorial, explicada nos exercı́cios da Ficha 12, a
transformação adjunta de T corresponde à transformação induzida por T entre os espaços
duais.
Definição 12.45. Seja V um espaço vetorial de dimensão finita com produto interno.
Uma transformação linear T : V → V diz-se auto-adjunta se T = T ∗ e anti-adjunta se
T = −T ∗ .
Segue imediatamente da discussão anterior que uma matriz A ∈ Mn×n (R) determina uma
transformação auto-adjunta de Rn sse é simétrica e anti-adjunta sse é anti-simétrica, isto
é se AT + A = 0. Analogamente, uma matriz A ∈ Mn×n (C) determina uma transformação
auto-adjunta sse A é hermitiana e uma transformação anti-adjunta sse é anti-hermitiana,

isto é se A∗ + A = 0.
Proposição 12.46. Os valores próprios de uma transformação linear auto-adjunta são
reais, e os de uma transformação linear anti-adjunta são imaginários puros. Em qualquer
dos casos, vetores próprios de valores próprios distintos são ortogonais.
Dem. Suponhamos que T é auto-adjunta e v é um vetor próprio de T então
λhv, vi = hλv, vi = hT v, vi = hv, T vi = hv, λvi = λhv, vi
Como v 6= 0 temos que λ = λ pelo que λ é real. No caso anti-adjunto obterı́amos a
igualdade λ + λ = 0 que diz que λ é imaginário puro.
Sejam λ e µ valores próprios distintos de T auto-adjunta com vetores próprios v, w.
Então
λhv, wi = hT v, wi = hv, T wi = µhv, wi
onde na primeira igualdade usámos o facto de λ ser real e portanto igual ao seu conjugado.
A igualdade anterior traduz-se em (λ − µ)hv, wi = 0. Uma vez que λ 6= µ, conclui-se que
v e w são ortogonais.
No caso anti-adjunto obtemos análogamente (λ + µ)hv, wi = 0. Como λ e µ são ima-
ginários puros λ + µ = −λ + µ pelo que novamente vemos que v, w são ortogonais.
Teorema 12.47 (Teorema espetral). (i) Seja V um espaço vetorial complexo de di-
mensão finita com produto interno e T : V → V uma transformação linear unitária,
auto-adjunta ou anti-adjunta. Então T é diagonalizável por uma base ortogonal de
V.
(ii) Seja V um espaço vetorial real de dimensão finita com produto interno e T : V →
V uma transformação linear auto-adjunta. Então T é diagonalizável por uma base
ortogonal de V .
Dem. As demonstrações são todas análogas pelo que vamos apenas ilustrar o caso de uma
transformação auto-adjunta deixando os outros como exercı́cio.
A demonstração é por indução na dimensão do espaço V , sendo que o caso de dimensão
1 é trivial. Supondo que a dimensão de V é maior do que 1, seja v um vetor próprio de
T e consideremos o subespaço W = v ⊥ ⊂ V . Então T|W é também auto-adjunta para a
restrição do produto interno de T a W . De facto, a igualdade
λhv, wi = hT v, wi = hv, T ∗ wi
mostra que, se w ∈ v ⊥ então T ∗ w ∈ v ⊥ . É então imediato que (T|W )∗ = T|W
∗
e portanto
T|W é auto-adjunta. Por hipótese de indução, existe uma base ortogonal de W formada
por valores próprios de T|W que juntamente com v forma a base ortogonal desejada para
V.
Se V é um espaço vetorial real, com respeito a uma base ortonormada B para V , o
produto interno em V é calculado da mesma forma que o produto interno usual em Rn .
Uma transformação auto-adjunta T é representada na base B por uma matriz simétrica
A = AT,B,B . A transformação linear T̃ : Cn → Cn representada por A é portanto auto-

adjunta (com respeito ao produto interno usual em Cn ). Como tal é diagonalizável (sobre
C) por uma base ortogonal. No entanto, como os valores próprios de T̃ são reais, e a matriz
A é real, os vetores próprios de T̃ são também reais. Os vetores de V correspondentes aos
vetores próprios de T̃ são a base ortogonal desejada para V .
Sumarizamos agora a informaçao sobre matrizes quadradas que resulta do Teorema
anterior, aplicando-o à transformação linear definida por T x = Ax com A uma matriz
n × n real ou complexa. Em cada caso a matriz A pode ser escrita na forma
A = SDS −1
com S uma matriz, unitária quando A é diagonalizável sobre C, e ortogonal quando A
é diagonalizável sobre R, (cujas colunas formam uma base ortonormada para Cn ou Rn
consoante o caso, constituı́da por vetores próprios de A), e D uma matriz diagonal cujas
entradas são os valores próprios de A.
Tipo de matriz Definição Diagonalizável Valores próprios

ortogonal AAT = In sobre C λ ∈ C, |λ| = 1
simétrica A = AT sobre R reais
T
anti-simétrica A + A = 0 sobre C imaginários puros
Matrizes n × n reais especiais.
Tipo de matriz Definição Valores próprios

∗
unitária AA = In λ ∈ C, |λ| = 1
∗
hermitiana A=A reais
anti-hermitiana A + A∗ = 0 imaginários puros
Matrizes n × n complexas especiais.
Observação 12.48. Embora não haja nenhum critério útil para ver se uma matriz é diago-
nalizável, há um critério muito simples para ver se uma matriz complexa A é diagonalizável
por uma base ortonormada. Isto acontece sse AA∗ = A∗ A. Ver os exercı́cios da Ficha 13
para uma demonstração.
12.49. Formas quadráticas. Como aplicação do resultado anterior vamos aproveitar para
classificar a menos de mudança de variável linear os polinómios homogéneos de grau 2 de
várias variáveis. Podemos pensar nestes como as funções de várias variáveis mais simples
a seguir às funções lineares.
Definição 12.50. Uma forma quadrática em Rn é uma função f : Rn → R da forma
(47) f (x) = xT Ax
com A ∈ Mn×n (R) (onde identificamos como habitualmente uma matriz 1 × 1 com um
escalar).
Por exemplo

2 5 x
= 2x2 + 6xy + 4y 2

(48) f (x, y) = x y
1 4 y
é uma forma quadrática em R2 . Note-se que a forma quadrática depende apenas da parte
T
simétrica A+A2
da matriz A. De facto uma vez que a transposição de matrizes 1 × 1 não
tem qualquer efeito temos xT Ax = (xT Ax)T = xT AT x. Substituindo a matriz A em (47)
T
por A+A2
obtemos portanto a mesma expressão. Por outro lado, uma vez que a soma das
entradas ij e ji da matriz A é o coeficiente de xi xj na expressão (47) matrizes simétricas
distintas dão azo a formas quadráticas distintas. Há assim uma correspondência biunı́voca
entre formas quadráticas e matrizes quadradas reais simétricas.
Tendo em conta o Teorema espetral, dada uma matriz simétrica A, existe uma matriz
ortogonal S e uma matriz diagonal (real) D tal que
A = SDS −1
E dado que S é ortogonal, S −1 = S T . Usando coordenadas y na base ortonormada formada
pelas colunas de S a expressão para a forma quadrática simplifica-se muito. Temos x = Sy
e então
(49) f (x) = xT Ax = (y T S T )A(Sy) = (y T S T )SDS T (Sy) = y T Dy = λ1 y12 + . . . + λn yn2
onde λ1 , . . . , λn são as entradas diagonais de D, ou seja, os valores próprios de A. Nas
aplicações (por exemplo para a determinação de extremos de funções de várias variáveis
como verão em Cálculo 2) é importante determinar o “sinal” de uma forma quadrática no
seguinte sentido.
Definição 12.51. Uma forma quadrática f : Rn → R diz-se
(i) definida positiva se f (x) > 0 para x 6= 0.
(ii) semi-definida positiva se f (x) ≥ 0 para todo o x ∈ Rn .
(iii) definida negativa se f (x) < 0 para x 6= 0.
(iv) semi-definida negativa se f (x) ≤ 0 para todo o x ∈ Rn .
(v) indefinida se f (x) assume valores positivos e negativos.
Da discussão anterior obtemos imediatamente o seguinte resultado.
Proposição 12.52. Uma forma quadrática f (x) = xT Ax com A ∈ Mn×n (R) simétrica é
(i) definida positiva sse todos os valores próprios de A são positivos.
(ii) semidefinida positiva sse todos os valores próprios de A são maiores ou iguais a zero.
(iii) definida negativa sse todos os valores próprios de A são negativos.
(iv) semidefinida negativa sse todos os valores próprios de A são menores ou iguais a zero.
(v) indefinida sse A tem valores próprios de sinal contrário.
Exemplo 12.53. A forma quadrática (48) é indefinida uma vez que a matriz simétrica
que a representa
2 3
3 4
tem determinante negativo e portanto valores próprios de sinais contrários.
Observação 12.54. A expressão (49) mostra também que toda a matriz simétrica com
valores próprios positivos é a matriz da métrica de um produto interno, pois a positividade
do produto interno corresponde precisamente ao facto da forma quadrática determinada
pela matriz ser definida positiva.
Appendix A. Mais sobre a forma canónica de Jordan

O procedimento descrito acima para achar a forma canónica de Jordan funciona bastante
bem para matrizes pequenas mas, em geral, pode ser difı́cil encontrar os vectores próprios
v1 para os quais se consegue resolver as equações (35) recursivamente. O seguinte exemplo
ilustra as dificuldades no caso mais simples.
Exemplo A.1. Seja A uma matriz com forma canónica de Jordan
 
1 1 0
(50) J = 0 1 0 
0 0 1
O espaço próprio de 1 tem dimensão 2. Seja {v1 , v10 } uma base para o espaço próprio de 1.
Tem que se ter cuidado na escolha do vector próprio v de 1 que se pôe na primeira coluna
da matriz S. De facto, só será possı́vel resolver a equação (35)
(A − I)v2 = v
para achar a segunda coluna se v estiver no espaço das colunas da matriz (A − I), que
tem dimensão 1. É portanto necessário achar uma combinação linear v = αv1 + βv10 que
pertença ao espaço das colunas de A − I. A terceira coluna poderá ser qualquer vector
próprio de 1 que juntamente com v forme uma base para o espaço próprio.
Vejamos um exemplo concreto. Considere-se a matriz
 
0 −1 2
A =  −1 0 2 
−1 −1 3
O polinómio caracterı́stico é
det(A − λI) = −λ3 + 3λ2 − 3λ + 1 = −(λ − 1)3
logo o único valor próprio é 1, com multiplicidade algébrica 3. Os vectores próprios de 1
são as soluções de   
−1 −1 2 a
 −1 −1 2   b  = 0 ⇔ 2c = a + b
−1 −1 2 c
O espaço próprio de 1 é portanto o conjunto dos vectores

     
a 1 0
 b  =a 0 +b 1 
  
1 1 1
2
(a + b) 2 2
e 1 tem multiplicidade geométrica 2. Há portanto dois blocos de Jordan e a forma canónica
de Jordan de A é necessariamente (50).
Não é no entanto possı́vel resolver a equação (35)
(A − I)v2 = v1
quando v1 é um dos vectores 1, 0, ou 0, 1, 21 da base ”natural” do espaço próprio de 1.
1

2
Como observámos acima, para que a equação tenha solução é necessário que v1 pertença ao
espaço das colunas de A − I, que é o espaço gerado por (1, 1, 1). A soma dos dois vectores
da ”base natural” é exactamente (1, 1, 1). Resolvendo a equação
    
−1 −1 2 a 1
 −1 −1 2   b  =  1  = 0 ⇔ 2c = a + b + 1
−1 −1 2 c 1
obtemos as soluções
       
a 0 1 0
 b  =  0  + a 0  + b 1 
1 a b 1 1 1
2
+ 2
+ 2 2 2 2
Podemos tomar por exemplo v2 = 0, 0, 21 . Para terceira coluna de S podemos tomar

qualquer vector próprio
de 1 que juntamente com (1, 1, 1) forme uma base do espaço próprio,
1
por exemplo, 1, 0, 2 . Obtemos assim a matriz de mudança de base
 
1 0 1
S= 1 0 0 
1 12 12
O exemplo anterior é bastante simples e foi resolvido facilmente mas a situação complica-
se à medida que o número e tamanho dos blocos relativos ao mesmo valor próprio aumenta.
Por exemplo, se a multiplicidade algébrica de λ é 4 e a multiplicidade geométrica é 2,
não sabemos à partida qual é a dimensão dos dois blocos de Jordan associados a λ. As
possibilidades são 1 e 3 ou 2 e 2. No primeiro caso teremos novamente que ter cuidado
na seleção do vector próprio com o qual iniciar a resolução recursiva das equações (35)
(terá de estar na imagem de (A − λI)2 ). No final deste apêndice descreve-se um algoritmo
geral (nada prático em termos de contas) para achar a forma canónica J juntamente com
a matriz S (ver a secção A.5).
A.2. Demonstração do Teorema 11.11. Seja A uma matriz n × n complexa. Se λ ∈ C
é um valor próprio de A o conjunto
V (λ) = {v ∈ Cn : (A − λI)k v = 0 para algum k ≥ 1}
chama-se o espaço próprio generalizado de A associado ao vector próprio λ. É fácil ver

que V (λ) é um subespaço vectorial de Cn .
Para cada j ≥ 0 seja
V (λ, j) = {v ∈ C n : (A − λI)j v = 0}
Temos então uma sucessão de subespaços
0 = V (λ, 0) ⊂ V (λ, 1) ⊂ V (λ, 2) ⊂ · · · ⊂ V (λ, k) ⊂ · · · ⊂ V (λ)
Por definição, V (λ, 1) é o espaço próprio de λ e V (λ) é a união de todos os V (λ, j). Uma
vez que V (λ) tem dimensão finita, existe n(λ) ≥ 1 tal que
V (λ, n(λ) − 1) ( V (λ, n(λ)) = V (λ)
Note-se também que, uma vez que a matriz A comuta com a matriz (A − λI), os espaços
V (λ, j) são invariantes, isto é, AV (λ, j) ⊂ V (λ, j).
Definição A.3. Seja A uma matriz n × n complexa e λ ∈ C um valor próprio de A. O
ı́ndice de um vector próprio generalizado v ∈ V (λ) é o menor i ≥ 0 tal que v ∈ V (λ, i).
Por exemplo o vector 0 tem indı́ce 0 e um vector próprio tem ı́ndice 1.
Lema A.4. Se v ∈ V (λ) tem ı́ndice i então dado 0 ≤ j ≤ i, o vector (A − λI)j tem ı́ndice
i − j. Além disso o conjunto
(A − λI)i−1 v, . . . , (A − λI)v, v
é linearmente independente (isto é, é uma cadeia de Jordan).
Dem. Uma vez que (A−λI)i−j ((A − λI)j v) = 0, o vector (A−λI)j v pertence a V (λ, i−j).
Se estivesse contido em V (λ, m) com m < i − j então (A − λI)j+m v = 0 e portanto
v ∈ V (λ, m + j) contradizendo o facto de v ter ı́ndice i.
Suponhamos que αl ∈ C são tais que
αi−1 (A − λI)i−1 v + . . . + α1 (A − λI)v + α0 v = 0
Aplicando (A − λI)i−1 à combinação linear anterior obtemos
0 + . . . + 0 + α0 (A − λI)i−1 v = 0
logo α0 = 0. Aplicando (A − λI)i−2 à combinação linear obtemos agora α1 = 0, e contin-
uando da mesma maneira vemos que todos os αl são 0.
O plano da demonstração do Teorema 11.11 é o seguinte. Iremos demonstrar que
(1) A afirmação do Teorema é verdadeira quando Cn = V (λ) para algum λ.
(2) Dados valores próprios distintos λ1 , . . . , λk tem-se V (λ1 ) ∩ ⊕kj=2 V (λk ) = {0} logo
a afirmação do Teorema é válida quando Cn = ⊕λ∈σ(A) V (λ) onde σ(A) denota o
conjunto dos valores próprios de A.
(3) Cn = ⊕λ∈σ(A) V (λ)
Dem. do Teorema 11.11. (1) O nosso objectivo é escrever uma base para Cn = V (λ)
formada por cadeias de Jordan (35). Seja l = n(λ). Começamos por escolher uma
base vl,1 , . . . , vl,kl para um espaço U (l) complementar a V (λ, l − 1) em V (λ, l) =
V (λ).
Qualquer combinação linear não nula dos vectores vl,m tem indı́ce l e portanto o
argumento usado na demonstração do Lema A.4 mostra que o conjunto
(51) vl,1 , . . . , vl,kl , (A − λI)vl,1 , . . . , (A − λI)vl,kl , . . . , (A − λI)l−1 vl,1 , . . . , (A − λI)l−1 vl,kl
é linearmente independente e portanto forma uma base para o subespaço
W (l) = U (l) + (A − λI)U (l) + . . . + (A − λI)l−1 U (l) ⊂ V (λ)
Este espaço é invariante para (A − λI) e portanto para A. Na base (51) a trans-
formação linear A é representada por uma matriz diagonal por blocos sendo todos
os blocos, blocos de Jordan de dimensão l. O número de blocos é kl . Os vectores
vl,m são as colunas de S correspondentes às colunas mais à direita destes blocos e
os restantes vectores da base (51) são as restantes colunas de S correspondentes a
estes blocos.
Seja U (l − 1) um complementar para o subespaço V (λ, l − 2) + (A − λI)U (l) ⊂
V (λ, l − 1). Escolhemos uma base vl−1,1 , . . . , vl−1,kl−1 para U (l − 1) (que pode ser
vazia se Ul−1 = 0). Note-se que qualquer combinação linear não nula destes vectores
tem ı́ndice l − 1. O argumento do Lema A.4 mostra novamente que o conjunto
(52) vl−1,1 , . . . , vl−1,kl−1 , . . . , (A − λI)l−2 vl−1,1 , . . . , (A − λI)l−2 vl−1,kl−1
é linearmente independente. Mais geralmente, notando que qualquer combinação
linear de (A − λI)vl,1 , . . . , (A − λI)vl,kl , vl−1,1 , . . . , vl−1,kl−1 tem ı́ndice l − 1, vemos
que a união dos conjuntos (51) e (52) é linearmente independente.
Seja
W (l − 1) = U (l − 1) + (A − λI)U (l − 1) + . . . + (A − λI)l−2 U (l − 1)
Este espaço é invariante para A e na base (52) a transformação linear A é repre-
sentada por uma matriz diagonal por blocos. Todos os blocos são blocos de Jordan
de dimensão l − 1 e há kl−1 blocos.
Escolhemos agora um complementar U (l − 2) para o subespaço V (l − 3) + (A −
λI)2 U (l)+(A−λI)U (l−1). No espaço W (l−2) = U (l−2)+. . .+(A−λI)l−3 U (l−2)
a transformação linear é diagonal por blocos sendo todos estes blocos de Jordan de
dimensão l − 2.
Prosseguindo desta forma obtemos uma decomposição
V (λ) = W (l) ⊕ W (l − 1) ⊕ . . . ⊕ W (1)
e uma base de V (λ) na qual a tranformação linear A é representada por uma matriz
em forma canónica de Jordan.
(2) Sejam λ1 , . . . , λk valores próprios distintos. Para verificar que
V (λ1 ) ∩ (V (λ2 ) ⊕ . . . ⊕ V (λk )) = 0
basta ver que a transformação linear (A−µI) restrita a V (λ1 ) é invertı́vel se µ 6= λ1 .

Admitindo essa afirmação, a transformação linear (A − λ2 I)n(λ2 ) · · · (A − λk I)n(λk )
é invertı́vel em V (λ1 ) e 0 em V (λ2 ) ⊕ . . . ⊕ V (λk ) logo a interseção dos dois espaços
é nula.
1
Mas (A − µI) = (A − λ1 I) + (λ1 − µ)I = (λ1 − µ) λ1 −µ (A − λ1 ) + I tem inverso

1 1 1
I− (A − λ1 I) + . . . + (−1)n(λ1 )−1 (A − λ1 )n(λ1 )−1
λ1 − µ λ1 − µ (λ1 − µ)n(λ1 )−1
como se verifica facilmente.
(3) Seja σ(A) o conjunto dos valores próprios de A e suponhamos por absurdo que
Z = ⊕λ∈σ(A) V (λ) 6= Cn
Seja W um complemento para o espaço Z ⊂ Cn e sejam n1 = dim Z e n2 = dim W .

Podemos escolher uma base para Cn tal que os primeiros n1 elementos da base
pertencem a Z e os restantes a W . Nessa base a transformação linear definida por
A tem a forma

J B
A=
0 C
(onde J é uma matriz n1 × n1 e C é uma matriz n2 × n2 ). Seja w ∈ W um vector
próprio da matriz C e λ o valor próprio correspondente. Então λ ∈ σ(A) e temos
Aw = λw + z ⇔ (A − λI)w = z para algum z ∈ Z
Sejam λ2 , . . . , λk os elementos de σ(A) \ {λ}. Então
(A − λ2 )n(λ2 ) · · · (A − λk )n(λk ) z ∈ V (λ)
logo
v = (A − λ2 )n(λ2 ) · · · (A − λk )n(λk ) w
é tal que
(A − λI)v ∈ V (λ)
e portanto
v ∈ V (λ) ⊂ Z.
Mas por outro lado
v = (λ − λ2 )n(λ2 ) · · · (λ − λk )n(λk ) w + z 0
com z 0 ∈ Z, o que é uma contradição.

A.5. Algoritmo para a determinação da forma canónica de Jordan. A demon-

stração do passo (1) do Teorema 11.11 contém implicitamente o seguinte algoritmo (nada
prático) para o cálculo da matriz J e S:
(1) Achar o conjunto σ(A) dos valores próprios de A. Para cada λ ∈ σ(A):
(2) Determinar os espaços
V (λ, i) = N (A − λI)i para i = 1, 2, . . .
e em particular determinar
n(λ) = min{k : N (A − λI)k = N (A − λI)k+1 }
(3) Seja l = n(λ). Determinar uma base vl,1 , . . . , vl,kl para um espaço U (λ, l) comple-
mentar a V (λ, l − 1) em V (λ, l). O número kl é o número de blocos de Jordan com
λ na diagonal de tamanho l. Cada vl,i gera uma cadeia de Jordan de tamanho l
vl,i , (A − λI)vl,i , . . . , (A − λI)l−1 vl,i
que dão as colunas de A correspondentes a um bloco de Jordan de tamanho l.
(4) Determinar uma base vl−1,1 , . . . , vl−1,kl−1 para um espaço U (λ, l − 1) complementar
a V (λ, l − 2) + (A − λI)U (λ, l) em V (λ, l − 1). Cada vl−1,i gera uma cadeia de
Jordan de tamanho l − 1 que dá as colunas de A correspondentes a um bloco de
Jordan de tamanho l − 1.
(5) Determinar uma base vl−2,1 , . . . , vl−1,kl−2 para um espaço U (λ, l − 2) complementar
a V (λ, l − 3) + (A − λI)U (λ, l − 1) + (A − λI)2 U (λ, l) em V (λ, l − 2). Cada vl−2,i gera
uma cadeia de Jordan de tamanho l − 2 que dá as colunas de S correspondentes a
um bloco de Jordan de tamanho l − 2.
(6) Continuando desta forma obtêm-se as colunas de S correspondentes aos blocos de
Jordan com λ na diagonal (assim como o número destes blocos de cada dimensão).
Appendix B. O produto externo de vetores

Definição B.1. Sejam v, w ∈ R3 . O produto externo de v e w é o vetor v × w ∈ R3
definido por

e1 e2 e3

v × w = v1 v2 v3 = (v2 w3 − v3 w2 )e1 + (v3 w1 − v1 w3 )e2 + (v1 w2 − v2 w1 )e3

w1 w2 w3
= (v2 w3 − v3 w2 , v3 w1 − v1 w3 , v1 w2 − v2 w1 )
onde ei designa o i-ésimo vetor da base canónica de R3 e a expressão à direita se obtém
expandindo o determinante ao longo da primeira linha.
Exemplo B.2.

e1 e2 e3

(1, −3, 2) × (5, 0, 2) = 1 −3 2  = (−6, 8, 15)
5 0 2
O produto externo tem inúmeras aplicações em Matemática e Fı́sica. Será usado em

Cálculo 2 para calcular fluxos de campos vetoriais através de superfı́cies. Em Mecânica
aparece por exemplo na expressão para o momento angular de uma partı́cula em torno de
um ponto, que é dado pela expressão L ~ = ~r × p~ com ~r o vetor de posição e p~ o momento
linear. A Força de Lorentz a que uma carga elétrica em movimento é sujeita ao interagir
com um campo magnético B ~ é F~ = q~v × B,
~ com ~v a velocidade e q a carga da partı́cula
em questão.
As propriedades do determinante implicam imediatamente certas propriedades do pro-
duto externo.
Proposição B.3 (Propriedades do produto externo). (i) O produto externo é linear em
cada um dos seus argumentos.
(ii) v × w = −w × v
(iii) v × v = 0
u1 u2 u3

(iv) hu, (v × w)i = v1 v2 v3
w1 w2 w3
Proof. A primeira afirmação é verdadeira porque o determinante é multilinear, a segunda

porque o determinante troca de sinal quando se trocam linhas, e a terceira porque o
determinante é zero se houver uma linha repetida. A quarta é uma consequência da
definição do produto interno e da expansão de Laplace ao longo da primeira linha.
A Proposição anterior dá-nos o significado geométrico do produto externo. De facto, por

(iv) temos
hv, v × wi = hw, v × wi = 0
pelo que v × w é ortogonal ao plano gerado por v e w (se v e w são colineares, então as
propriedade (i) e (iii) dizem-nos que o produto externo é o vetor nulo). Além disso, dada
a interpretação do determinante como o volume do paralelipı́pedo temos que

– v×w –

kv × wk2 = hv × w, v × wi = – v –
– w –
é o volume do paralelipı́pedo com base o paralelogramo formado por v e w sendo a outra
aresta perpendicular ao paralelogramo com comprimento kv × wk. Este volume é a área
da base vezes o comprimento da aresta perpendicular à base pelo que kv × wk é a área
do paralelogramo com arestas v e w. Note-se que no caso degenerado em que v e w são
colineares a afirmação anterior continua a ser válida.
Em suma, quando v, w não são colineares, o produto externo v × w é um vetor perpen-
dicular ao plano determinado por v e w, cujo comprimento é a área do paralelogramo com
arestas v e w. Se α for a o ângulo entre v e w, a área do paralelogramo é a mesma que
a área do retângulo com arestas de comprimento kvk e kwk sen α (isto vê-se deslizando a
aresta w ao longo de uma reta paralela a v até que fique perpendicular a v - movimento
que não afeta a área do paralelogramo). Portanto

kv × wk = kvkkwk sen α com α o ângulo entre v e w
Há dois vetores com a propriedade que acabámos de descrever, que diferem apenas no
seu sentido. O sentido do produto externo é dado pela regra da mão direita: se colocarmos
a mão direita aberta, com os dedos que não o polegar juntos apontando na direção de v e
a rodarmos de modo a que esses dedos apontem para w, o polegar aponta na direção de
v × w.
A razão pela qual isto é assim prende-se com o significado geométrico do sinal do deter-
minante de uma matriz invertı́vel, que é precisamente

– v1 –

– v2 – > 0 ⇔ v1 , v2 e v3 satisfazem a regra da mão direita.

– v3 –
Nesse caso diz-se que a orientação do referencial (v1 , v2 , v3 ) é positiva. Note-se que o refer-
encial canónico formado pela base canónica de R3 tem esta propriedade. Assim podemos
pensar nos referenciais positivamente orientados como sendo ”semelhantes” ao referencial
habitual.
Para perceber a afirmação anterior recorde-se que podemos transformar a matriz com
linhas v1 , v2 e v3 na matriz identidade aplicando o método do Gauss-Jordan. Cada passo
do método consiste numa operação
(53) Li − αLj , αLi , Li ↔ Lj
que, em termos da matriz dos coeficientes do sistema, corresponde à multiplicação à es-
querda por uma matriz simples. No primeiro caso trata-se de uma matriz triangular com
uma única entrada não nula fora da diagonal, no segundo caso por uma matriz diagonal
com α na posição i e 1 nas restantes, e no último por uma matriz de permutação que troca
as linhas i e j. O sinal do determinante da matriz dos coeficientes não é alterado pelas
operações do primeiro tipo, permanece igual ou é alterado pelas do segundo tipo consoante
α é positivo ou negativo, e é sempre alterado por operações do terceiro tipo (com i 6= j).
Resta agora observar que o efeito que as operações (53) têm relativamente à verificação
da regra da mão direita por um referencial é exatamente o mesmo: operações do primeiro
tipo não têm efeito no que diz respeito à verificação da regra da mão direita pelas linhas
da matriz; operações do segundo tipo não têm efeito se α > 0 e têm efeito se α < 0; as
operações do terceiro tipo têm sempre efeito. Conclui-se que o determinante é positivo sse
as linhas satisfazem a regra da mão direita.
Observação B.4. A fórmula da Definição B.1 pode ser usada para definir o produto
externo de (n − 1) vetores em Rn , para n ≥ 1. Sendo e1 , . . . , en a base canónica de Rn e
v1 , . . . vn−1 vetores de Rn , define-se

e1 · · · en

– v 1 –
v1 × · · · × vn−1 =
– ... –

– vn−1 –
Por exemplo, se n = 2, o produto externo de um único vetor v1 ∈ R2 dá o vetor que se obtém
de v1 rodando 90 graus no sentido anti-horário. Em geral, os argumentos acima mostram
que o produto externo é nulo sse os vetores v1 , . . . , vn−1 forem linearmente dependentes e
senão é perpendicular ao plano (n − 1)-dimensional gerado por v1 , . . . , vn−1 . Além disso,
o comprimento do produto externo é o volume (n − 1)-dimensional do paralelipı́pedo com
arestas v1 , . . . , vn−1 e o seu sentido é tal que a orientação do referencial v1 , . . . , vn−1 , v1 ×
· · · × vn−1 coincide com a da base canónica de Rn .
Para terminar mencionamos ainda outra fórmula para o volume k-dimensional de um
paralelipı́pedo de dimensão k em Rn que será útil em Cálculo 2 quando se estudar a
integração em superfı́cies (k-dimensionais) curvas.
Proposição B.5. Sejam v1 , . . . , vk ∈ Rn vetores linearmente independentes. Então o
volume k-dimensional do paralelipı́pedo P com arestas v1 , . . . , vk é
√
Volk (P ) = det AT A
onde A ∈ Mn×k (R) é a matriz que tem v1 , . . . , vk por colunas.
Dem. Sejam wk+1 , . . . , wn uma base ortonormada para o complemento ortogonal do plano
gerado por v1 , . . . , vk . Então o volume do paralelipı́pedo n-dimensional com arestas
v1 , . . . , vk , wk+1 , . . . , wn é igual ao volume k-dimensional que queremos calcular. Sendo
B ∈ Mn×n (R) a matriz que tem por colunas os vetores v1 , . . . , vk , wk+1 , . . . , wn (por ordem)
e escrevendo B por blocos na forma [A | C] com A a matriz formada pelas primeiras k
colunas, temos
T
T A A 0
B B=
0 In−k
(onde C T C = In−k porque os vetores wi constituem uma base ortonormada para o plano
que geram). Portanto
√
(det B)2 = det(AT A) ⇔ det AT A = | det B|
e, uma vez que | det B| é o volume do paralelipı́pedo n-dimensional com arestas
v1 , . . . , vk , wk+1 , . . . , wn , isto conclui a demonstração.
Notamos que a matriz AT A no enunciado anterior é exatamente a matriz da métrica

com respeito à base (v1 , . . . , vk ) para a restrição do produto interno usual ao plano gerado
por {v1 , . . . , vk }.
Exemplo B.6. A área do paralelogramo em R3 com arestas (1, −2, 1) e (2, 3, 0) é
v   s
u 1 2 6 −4 √

1 −2 1 
u
tdet −2 3  = = 62
u
2 3 0 −4 13
1 0
Appendix C. Projeção ortogonal e compressão de dados

A ideia fundamental utilizada na compressão de dados (por exemplo som, ou imagem)
é a projeção ortogonal e baseia-se na descoberta por Joseph Fourier, um engenheiro,
matemático e fı́sico do século XIX, durante as suas investigações sobre a propagação do
calor, que é possı́vel descrever funções por meio de somas de funções trigonométricas.
Na sua expressão mais simples, suponhamos que pretendemos descrever uma função real
contı́nua f : [0, 2π] → R (que pode representar por exemplo, uma linha numa imagem, ou a
intensidade do som). É fácil verificar, que com respeito ao produto interno h·, ·i no espaço
vetorial C([0, 2π], R) das funções contı́nuas em [0, 2π] definido por
ˆ 2π
hf, gi = f (x)g(x)dx
0
o conjunto
{1, sen x, sen(2x), . . . , sen(nx), . . .}
é ortogonal. Fourier descobriu que é possı́vel expressar qualquer função contı́nua como
“combinação linear” destas funções9 - aquilo a que se chama hoje uma série de Fourier.
Intuitivamente isto significa que o conjunto acima forma uma “base ortogonal” para o
espaço das funções contı́nuas em [0, 2π].
A ortogonalidade permite determinar facimente os coeficientes da combinação linear
correspondente a uma função f : o coeficiente segundo sen(nx) da função f é dado pela
expressão
hsen(nx), f (x)i
Psen(nx) (f ) =
k sen(nx)k2
A ideia básica da compressão de dados é que, para armazenar a informação contida

no gráfico de f basta armazenar um número suficientemente grande destes coeficientes.
Quanto maior o número de coeficientes, maior a fidelidade com que conseguimos repro-
duzir a função f . Dados os coeficientes, reproduzir a função f corresponde em somar a
expressão com os coeficientes armazenados. Desde que o número de coeficientes utilizado
seja suficientemente grande será impossı́vel ao ouvido ou olho humano distinguir entre a
função original e a soma de funções trigonométricas usada para a aproximar.
9Trata-se de uma combinação linear infinita, ou desenvolvimento em série. A análise da convergência

destas séries é delicada e constitui ainda hoje uma área da Matemática que se designa por Análise
Harmónica.
Figure 1. Aproximação de um sinal retangular por uma soma de Fourier

com 5 termos.
Recomendamos a utilização do applet disponı́vel em http://mathlets.org/mathlets/

fourier-coefficients/ (parte dos MIT Mathlets) para explorar esta ideia, que será
descrita com mais detalhe e utilizada no próximo ano, no curso de Análise Complexa e
Equações Diferenciais.
Appendix D. O critério de Sylvester

Seja A uma matriz simétrica n × n. Dado 1 ≤ i ≤ n escrevemos Ai para a matriz que
se obtém de A tomando apenas as primeiras i linhas e colunas de A. Os determinantes
destas submatrizes de A chamam-se os menores principais de A.
Proposição D.1 (Critério de Sylvester). Seja f : Rn → R a forma quadrática determinada
pela matriz simétrica A ∈ Mn×n (R). Então
• f é definida positiva sse det Ai > 0 para i = 1, . . . , n.
• f é definida negativa sse det Ai é positivo para i par e negativo para i ı́mpar.
Dem. Note-se que f (x) = xT Ax é definida positiva sse −f (x) = xT (−A)x é definida
negativa. Uma vez que det(−Ai ) = (−1)i det Ai (em geral, a multilinearidade do determi-
nante implica que det(λA)i = λi det Ai ), vemos que as duas afirmações do enunciado são
equivalentes. Basta portanto demonstrar a primeira.
Se f é definida positiva, a sua restrição a Ri = {(x1 , . . . , xi , 0, . . . , 0) : x1 , . . . , xi ∈ R}
será também definida positiva. Mas claramente esta restrição é dada pela fórmula (com
x ∈ Ri )
f|Ri (x) = xT Ai x
logo, para que f seja definida positiva, é necessário que det Ai > 0.
Reciprocamente, suponhamos que det Ai > 0 para cada i = 1, . . . n. Seja i > 1 e

suponhamos indutivamente que já verificámos que f|Rk é definida positiva para todo k < i
(para k = 1 é claro que se det A1 = a11 > 0 então f|R1 (x1 ) = a11 x21 é definida positiva).
Suponhamos por absurdo que f|Ri não era definida positiva. Uma vez que, por hipótese,
det Ai > 0, a matriz Ai teria que ter pelo menos dois valores próprios negativos (contados
com multiplicidade). Sendo W ⊂ Ri um plano gerado por dois vetores próprios indepen-
dentes de Ai com valores próprios negativos, terı́amos f|W (y) < 0 para y ∈ W \ {0}.
Mas a interseção de W com Ri−1 ⊂ Ri tem dimensão pelo menos 1 pelo que existiria
um vetor y ∈ Ri−1 \ {0} com f (y) < 0, contradizendo a hipótese de indução que f|Ri−1 é
definida positiva.
Exemplo D.2. Consideremos a forma quadrática f : R3 → R definida por
f (x, y, z) = 10x2 + 10y 2 + 10z 2 + 2xy + 2yz
A matriz simétrica que lhe está associada é
 
10 1 0
A =  1 10 1 
0 1 10
Os menores principais

10 1 0
10 1
|10| = 10,
1 10
= 99,

1 10 1

= 1000 − 20 = 980

0 1 10
são todos positivos, pelo que a forma quadrática é definida positiva.
Appendix E. A classificação das quádricas

Uma quádrica é uma curva em R2 ou uma superfı́cie em R3 definida por uma equação
quadrática. Podemos usar a diagonalização de matrizes simétricas para entender geomet-
ricamente estas curvas e superfı́cies (que irão ser exemplos básicos em Cálculo 2).
E.1. Quádricas em R2 . A expressão geral de uma quádrica é

(54) ax2 + bxy + cy 2 + dx + ey + f = 0
em que a, b, c, d, e, f ∈ R. Devemos excluir alguns casos degenerados: se a = b = c = 0
então o conjunto descrito pela expressão anterior é uma reta se (d, e) 6= (0, 0), vazio se
d = e = 0 e f 6= 0, e todo o plano se d = e = f = 0. Consideremos portanto o caso em
que os termos de grau 2 não se anulam todos. Temos
a b

2 2

2
x
ax + bxy + cy = x y b
2
c y
Sejam λ1 , λ2 ∈ R os valores próprios da matriz associada à forma quadrática anterior e
(u1 , u2 ), (v1 , v2 ) os vetores próprios correspondentes, que podemos assumir formarem uma
base ortonormada para R2 . Sendo (u, v) as coordenadas no referencial determinado pelos

vetores próprios temos

x u1 v1 u
(55) =
y u2 v2 v
Nestas coordenadas, temos
b

2 2
u1 u2 a 2
u1 v1 u
ax + bxy + cy = u v b
v1 v2 2
c u2 v2 v

λ1 0 u
= λ1 u2 + λ2 v 2

= u v
0 λ2 v
O termo linear em (54) transforma-se mediante a mudança de coordenadas (55) num termo
linear em u e v, pelo que esta mudança de coordenadas transforma (54) na seguinte equação:
(56) λ1 u2 + λ2 v 2 + d0 u + e0 v + f = 0
Temos agora a considerar três casos:
• λ1 , λ2 ambos diferentes de 0, com o mesmo sinal: Multiplicando (56) por −1 se
necessário podemos assumir que λ1 e λ2 são positivos. Completando os quadrados
podemos escrever a expressão na forma
d0 2 e0 2
λ1 (u + 2λ1
) + λ2 (v + 2λ2
) = f0
d02 e02
onde f 0 = −f + 4λ21
+ 4λ22
. Se f 0 < 0 este conjunto é vazio, se f 0 = 0 este conjunto
0 0
consiste no ponto (− 2λ d
1
, − 2λe 2 ), e se f 0 > 0, o conjunto é uma elipse com centro em
d0 0
(− 2λ 1
, − 2λe 2 ) (ou uma circunferência quando λ1 = λ2 ).
• λ1 , λ2 ambos diferentes de 0, com sinais opostos: Multiplicando (56) por −1 se
necessário podemos assumir que λ1 é positivo. Com uma manipulação semelhante
à do caso anterior obtemos uma expressão da forma
λ1 (u − u0 )2 + λ2 (v − v0 )2 = f 0
que, para f 0 6= 0 é a equação de uma hipérbole10 com “centro” em (u0 , v0 ) e
assı́ntotas dadas pelas retas
λ1
v − v0 = ± (u − u0 )
λ2
Quando f 0 = 0 a equação reduz-se à equação das retas definidas pela expressão
anterior.
• λ1 ou λ2 são 0: Sem perda de generalidade podemos assumir que λ2 = 0 e que
λ1 > 0. Manipulando a expressão (56) como antes obtemos
λ1 (u − u0 ) + e0 v + f 0 = 0
10Note-se que a equação x2 − y 2 = 1 se pode escrever na forma (x − y)(x + y) = 1 e portanto, mediante
a mudança de variável linear u = x − y, v = x + y é equivalente à equação mais familiar para uma hipérbole
uv = 1.
Se e0 6= 0, trata-se da equação de uma parábola, cujo sentido é determinado pelo

sinal de e0 . Se e0 = 0 obtemos o conjunto vazio, a reta u = u0 , ou duas retas
paralelas a esta última, consoante f 0 > 0, f 0 = 0 ou f 0 < 0 respetivamente.
Exemplo E.2. Consideremos o exemplo concreto da equação
x2 + 2xy + y 2 + x + 2y + 3 = 0
A matriz simétrica associada à forma quadrática determinada pelos termos quadráticas é

1 1
1 1
que tem valores próprios 0 e 2 com vetores próprios ( √12 , − √12 ) e ( √12 , √12 ). Fazendo a
mudança de coordenadas
1
√1
1
− √1

x √ u u √ x
2 2
= ⇔ = √12 √1 2
y − √12 √12 v v 2 2
y
obtemos a equação
0 · u2 + 2v 2 + √1 u
2
+ √1 v
2
+ 2(− √12 u + √1 v)
2
+ 3 = 0 ⇔ 2v 2 − √1 u
2
+ √3 v
2
+3=0
que se pode escrever na forma
√ 3 2
√ 9
u = 2 2(v + √
4 2
) +3 2− √
8 2
E.3. Quádricas em R3 . A expressão geral de uma quádrica é

(57) ax2 + by 2 + cz 2 + dxy + exz + f yz + gx + hy + iz + j = 0
Novamente a análise desta superfı́cie baseia-se na análise dos termos de grau 2 (se estes se
anulam identicamente a equação define um plano, o vazio ou todo o R3 ) que constituem a
forma quadrática
d e
  
ad 2 f2 x
x y z 
2
b 2   y 
e f
2 2
c z
Num referencial ortonormado formado por vetores próprios da matriz simétrica que ocorre
na expressão acima, a expressão (57) transforma-se em
λ1 u2 + λ2 v 2 + λ3 w2 + g 0 u + h0 v + i0 z + j = 0
Módulo translações nos eixos dos u, v, w podemos assumir que as constantes g 0 = h0 = i0
se anulam, desde que o λi correspondente não se anule. Temos então os seguintes casos:
• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais iguais (que podemos assumir positivos):
A equação define o conjunto vazio se j < 0, um ponto se j = 0 e um elipsóide se
j > 0 (trata-se da superfı́cie que se obtém de uma superfı́cie esférica reescalando os
eixos).
• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais não todos iguais (podemos assumir que
λ1 , λ2 > 0 e λ3 < 0: Os protótipos destas superfı́cies são as definidas pelas equações
x2 + y 2 − z 2 = 1, x2 + y 2 − z 2 = 0, x2 + y 2 − z 2 = −1
p
Para entender a sua forma convém observar que o significado geométrico de x2 + y 2
é (pelo Teorema de Pitágoras) a distância do ponto (x, y, z) aopeixo dos zz. Num
qualquer semiplano limitado pelo eixo dos zz podemos usar r = x2 + y 2 ≥ 0 como
coordenada ao longo do semi-eixo perpendicular a Oz e a equação da interseção da
nossa superfı́cie com esse semiplano é determinada pela equação
r2 − z 2 = 1, r2 − z 2 = 0, r2 − z 2 = −1
ou seja, trata-se de uma hipérbole nos casos em que o termo direito é ±1 e de
um par de semi-retas no caso restante. As superfı́cies que pretendemos descrever
obtêm-se rodando estas curvas em torno do eixo Oz. Denominam-se respetivamente
um hiperbolóide, um cone e um hiperbolóide de duas folhas.
• λ1 = 0 e λ2 , λ3 6= 0 com o mesmo sinal que podemos assumir positivo: Os protótipos
são agora da forma
x2 + y 2 = j 0 , x2 + y 2 − z = j 0
que são respetivamente o vazio, o eixo dos zz ou um cilindro em torno do eixo dos
zz no primeiro caso, ou um parabolóide (uma parábola z = r2 − j 0 rodada em torno
do eixo dos zz).
• λ1 = 0 e λ2 , λ3 6= 0 com sinais diferentes (podemos assumir λ2 > 0, λ3 < 0): Os
protótipos são
x2 − y 2 = j 0 , x2 − y 2 − z = j 0
No primeiro caso trata-se de um cilindro hiperbólico, isto é, de uma hipérbole
transladada ao longo do eixo dos zz (ou no caso degenerado em que j 0 = 0, da
união de dois planos concorrentes no eixo dos zz), enquanto que no segundo a su-
perfı́cie designa-se por uma sela uma vez que tem o aspeto de uma sela de um cavalo
(há uma parábola virada para cima ao longo do eixo dos xx e uma decrescente ao
longo do eixo dos yy).
• λ1 = λ2 = 0 e λ3 > 0. Os protótipos são agoras as equações da forma
z 2 + g 0 x + h0 y = j 0
Se g 0 = h0 = 0 esta equação define o vazio, um plano ou dois planos paralelos
consoante o sinal de j 0 . No caso em que (g 0 , h0 ) 6= 0 define um cilindro parabólico,
isto é a translação de uma parábola, ao longo de um eixo no plano xy perpendicular
ao vetor (g 0 , h0 ).
References
[D] E. Dias, Álgebra Linear, https://www.math.tecnico.ulisboa.pt/~edias/TextosNet/
ALbookfin_Net.pdf
[H] J. Hefferon, Linear Algebra, http://joshua.smcvt.edu/linearalgebra/book.pdf
[HK] K. Hoffman and R. Kunze, Linear Algebra, Prentice-Hall (1961)

Apontamentos AL

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apontamentos AL

Enviado por

Direitos autorais:

Formatos disponíveis

Instituto Superior Técnico

APONTAMENTOS DE ÁLGEBRA LINEAR

Definição 1.1. Um sistema linear de m equações a n incógnitas é uma expressão da forma

onde aij , xj , bi para 1 ≤ i ≤ m, 1 ≤ j ≤ n denotam números reais (ou complexos). Os

O método da eliminação de Gauss é o seguinte algoritmo para simplificar um sistema de

Exemplo 1.3. Considere-se o sistema

Aplicando o método de Gauss obtemos

Exemplo 1.9. Vamos resolver o sistema linear homogéneo

Aplicando o método de Gauss-Jordan temos

Se (x1 , . . . , xn ) é uma solução do sistema, então para qualquer escolha de c1 , . . . , cm ∈ R

Observação 1.11. O conceito de combinação linear é talvez o conceito central da Álgebra

(bi n+1 − ci n+1 )xn+1 =0

Observação 1.13. A demonstração anterior mostra mais geralmente que se A, B e C são

com k equações tem o aspecto seguinte

Definição 2.1. Sejam k, m, n números naturais, C uma matriz k × m e A uma matriz

De forma semelhante, a operação −2L2 corresponde à multiplicação de (9) pela matriz

Definição 2.3. Seja n um número natural. A matriz identidade do tipo n × n é a matriz

Teorema 2.4 (Propriedades do produto de matrizes). Sejam k, m, n, p números naturais

Dem. (i) Temos a verificar que para cada i, j com 1 ≤ i ≤ k e 1 ≤ j ≤ p, a entrada

onde na última igualdade aplicámos as propriedades distributiva da soma em relação

As expressões obtidas para (A(BC))ij e ((AB)C)ij são idênticas3 (pelas propriedades

Proposição 2.11 (Propriedades da soma de matrizes). Sejam A, B, C matrizes m × n.

Podemos usar as propriedades acima para desenvolver e simplificar expressões como

Proposição 2.18. Sejam A, B matrizes n × n invertı́veis. Então

(B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 In B = B −1 B = In

(AB)(B −1 A−1 ) = A(BB −1 )A−1 = AIn A−1 = AA−1 = In

com todas as entradas fora da diagonal 0 e todas as entradas na diagonal 1

Definição 3.3. Seja V um espaço vetorial e v1 , . . . , vk elementos de V . Diz-se que v ∈ V

polinómios de grau ≤ 3 tem grau ≤ 3 e que o produto de um polinómio de grau ≤ 3

Este conjunto é um subespaço vetorial de Rn (o argumento é exatamente o mesmo

Definição 3.12. Seja V um espaço vetorial e S ⊂ V um subconjunto. A expansão linear

Por convenção L(∅) = {0}.

aplicar o método de Gauss seria

α1 v1 + . . . + αn vn e β1 w1 + . . . + βm wm em L(S) a sua soma é

é uma sucessão de matrizes obtida por aplicação o método de Gauss-Jordan à matriz A.

4. Dependência linear, bases e dimensão

independente. De facto, uma combinação linear de elementos de S com coeficientes

então α1 = · · · = αn+1 = 0. Notamos primeiro que αn+1 é necessariamente 0 porque senão

Proposição 4.4. Seja V um espaço vetorial e S ⊂ V um subconjunto.

Dem. (i) A demonstração é por indução no número de elementos de S. Se S = {v}

Escrevendo uma combinação linear

Definição 4.7. O número de elementos de qualquer base de um espaço finitamente gerado

o que mostra que B é linearmente independente. Neste caso não se justificava

que podemos escrever na forma de uma matriz aumentada

é uma base de M2×2 (R) contendo a base de L(S).

Por exemplo, a expressão f (x) = 3x + 1 não define uma transformação linear

Proposição 6.3. Sejam V, W espaços vetoriais, B = {v1 , . . . , vn } uma base para V e

0 ∈ L(V, W ) é a transformação linear identicamente nula que envia todos os vetores v ∈ V

onde na primeira igualdade usámos a definição de soma de transformações lin-

Dem. Dado v ∈ V temos pela definição das matrizes que representam f e g

Corolário 6.19. Sejam V, W espaços vetoriais, f : V → W uma transformação linear

7. Subespaços associados a uma transformação linear

que é um caso particular da condição geral de injetividade

• {f (vk+1 ), . . . , f (vn )} gera V : Seja w um vetor em f (V ). Então existe v ∈ V tal que

Ou seja f (V ) é um subespaço de W com a mesma dimensão que W . Então temos nec-

A unicidade da matriz B diz-nos então que

vemos que N (f ) tem dimensão entre 3 e 7. Assim que

Avaliando o termo esquerdo da equação anterior no elemento vi da base obtemos

9. Valores e vetores próprios

Obtemos assim a fórmula

que, reduzindo ao mesmo denominador e cancelando alguns termos se transforma em:

Definição 10.1. Uma função determinante para as matrizes n × n é uma função

det : Mn×n (R) → R