Você está na página 1de 43

105

PARTE 3:
AU T OVA L O R E AU T OV E T O R .
ESPAÇ OS C OM PRODUTO INTERN O
106

AU T OVA L O R E S E AU T OV E T O R E S

Nesta parte da matéria, vamos estudar dois objetos muito interessantes associados à
matrizes, conhecidos como autovalores e autovetores. Vamos ver adiante que a ideia surgiu
no estudo do movimento rotacional e, mais tarde, foi usada para classificar superfícies e para
descrever soluções de certas equações diferenciais. No início do século XX, foi aplicada a
matrizes e transformações matriciais e hoje tem aplicações a áreas tão diversas como
computação gráfica, vibrações mecânicas, fluxo do calor, dinâmica populacional, mecânica
quântica e até economia18.

U M P O U C O D E H I S T Ó R I A 19

Os autovalores são frequentemente introduzidos no contexto da álgebra linear ou da teoria


das matrizes. Historicamente, no entanto, eles surgiram no estudo de formas quadráticas e
equações diferenciais.

No século XVIII, Leonhard Euler estudou o movimento rotacional de um corpo rígido, e


descobriu a importância dos eixos principais. Joseph-Louis Lagrange percebeu que os eixos
principais são os autovetores da matriz de inércia.

No início do século XIX, Augustin-Louis Cauchy viu como seu trabalho poderia ser usado
para classificar as superfícies quádricas, e generalizou-o para dimensões arbitrárias. Cauchy
também cunhou o termo racine caractéristique (raiz característica), para o que agora é
chamado de autovalor; seu termo sobrevive na equação característica.

Mais tarde, Joseph Fourier usou o trabalho de Lagrange e Pierre-Simon Laplace para resolver
a equação do calor por separação de variáveis em seu famoso livro de 1822, Théorie
analytique de la chaleur. Charles-François Sturm desenvolveu ainda mais as ideias de Fourier
e chamou a atenção de Cauchy, que as combinou com suas próprias ideias e chegou ao fato
de que matrizes simétricas reais têm autovalores reais. Isso foi estendido por Charles
Hermite em 1855 para o que hoje é chamado de matrizes hermitianas.

18 18 Álgebra Linear com Aplicações - H. Anton, C. Rorres, 10a ed., ed. Bookman, pg. 295
19 https://pt.wikipedia.org/wiki/Autovalores_e_autovetores
107

Na mesma época, Francesco Brioschi provou que os autovalores de matrizes ortogonais


estão no círculo unitário, e Alfred Clebsch encontrou o resultado correspondente para
matrizes assimétricas. Finalmente, Karl Weierstrass esclareceu um aspecto importante na
teoria da estabilidade iniciada por Laplace, ao perceber que matrizes defeituosas podem
causar instabilidade.

Nesse ínterim, Joseph Liouville estudou problemas de autovalor semelhantes aos de Sturm;
a disciplina que surgiu de seu trabalho agora é chamada de teoria de Sturm-Liouville.
Schwarz estudou o primeiro autovalor da equação de Laplace em domínios gerais no final do
século XIX, enquanto Poincaré estudou a equação de Poisson alguns anos depois.

No início do século XX, David Hilbert estudou os autovalores dos operadores integrais,
visualizando os operadores como matrizes infinitas. Ele foi o primeiro a usar a palavra alemã
eigen, que significa "próprio", para denotar autovalores e autovetores em 1904, embora possa
ter seguido um uso relacionado por Hermann von Helmholtz. Por algum tempo, o termo
padrão em inglês era "valor adequado", mas o termo mais distinto "valor próprio" é o padrão
hoje.

O primeiro algoritmo numérico para calcular autovalores e autovetores apareceu em 1929,


quando Richard von Mises publicou o método da potência. Um dos métodos mais populares
hoje, o algoritmo QR, foi proposto independentemente por John G. F. Francis e Vera
Kublanovskaya em 1961.
108

A U L A 15 : A U T OVA L O R E S E A U T OV E T O R E S

Nesta aula, vamos definir autovalores e autovetores e estudar algumas propriedades básicas.

Definição 1: Seja A uma matriz n × n. Dizemos que o vetor não nulo v ∈ ℝn é um autovetor de A (ou
do operador matricial TA) se Av é múltiplo escalar de v, ou seja,
Av = λv
para algum escalar λ ∈ ℝ. O escalar λ é chamado de autovalor de A (ou de TA), e dizemos que v é um
autovetor associado a λ.

Observação: Em geral, quando multiplicamos um vetor x por uma matriz A , o novo vetor Ax pode ser
bem diferente de x , conforme vimos nas Transformações Matriciais de aulas anteriores. Entretanto,
quando, em particular, x é um autovetor, então a imagem Ax será um vetor que vai estar na mesma
direção de x , onde o sentido será dado pelo valor de λ , ou seja, dependendo do sinal de λ , a operação
Ax = λx pode comprimir ou expandir x pelo fator λ.

Exemplo 1: Autovalor de uma matriz 2 × 2.

[2] [8 −1]
1 3 0
Observe que o vetor x = é um autovetor da matriz A = , associado

ao autovalor λ = 3, pois

[8 −1] [2] [6]


3 0 1 3
Ax = = = 3x.

Geometricamente, a multiplicação por A expandiu o vetor x pelo fator 3.

Encontrando autovalores

Vamos refletir agora em como podemos determinar os autovalores e os autovetores de uma


dada matriz A, de tamanho n × n.
109

Em primeiro lugar, observe que, por definição, temos que Ax = λx , o que pode ser reescrito
como Ax = λIx , onde I é a matriz identidade. Logo,
(A − λI )x = 0.
Com isso, observamos que λ será um autovalor da matriz A se a equação acima tiver uma
solução não nula, x.

Pelo teorema que vimos, uma equação da forma Bx = 0 tem somente a solução trivial se, e
só se, det(B) ≠ 0. Logo, como queremos uma solução não trivial, vamos procurar soluções λ
tais que det(A − λI ) = 0.

Teorema 1: Considere uma matriz A, de tamanho n × n. Então λ será um autovalor de A se, e somente
se, λ satisfaz a equação
det(A − λI ) = 0.
Esta equação é chamada de equação característica de A.

Exemplo 2: Encontrando autovalores.


No exemplo 1 acima, vimos que a matriz A possuía o autovalor λ = 3 . Vamos aplicar o teorema acima
para verificar este resultado.
Como det(A − λI ) = 0, então temos que
3−λ 0
det(A − λI ) = = (3 − λ)(−1 − λ) = 0.
8 −1 − λ
Logo, os autovalores de A são dados por λ = 3, λ = − 1 . Com isso, descobrimos também outro
autovalor, além de λ = 3.

Observação: Note que quando expandimos det(A − λI ) = 0 , encontramos um polinômio de grau n ,


chamado de polinômio característico de A. No exemplo acima, o polinômio característico da matriz A,
2 × 2, é dado por p(λ) = (3 − λ)(−1 − λ) = λ 2 − 2λ − 3, que possui grau 2.

Exemplo 3: Autovalores de matriz 3 × 3.


Encontre os autovalores da matriz
0 1 0
[4 −17 8]
A= 0 0 1 .

O polinômio característico de A é dado por


11 0

−λ 1 0
det(A − λI ) = det 0 −λ 1 = (−λ)(−λ)(8 − λ) − (−λ)(−17) + 4
4 −17 8 − λ
= − λ 3 + 8λ 2 − 17λ + 4 = 0.

Para resolver a equação acima, vamos iniciar procurando por soluções inteiras.
Esta tarefa pode ser simplificada se lembrarmos de que todas as soluções inteiras (se houver) de uma
equação polinomial da forma
λ n + c1λ n−1 + … + cn = 0
com coeficientes inteiros são divisores do termo independente cn.
Com isso, na equação acima, as únicas soluções inteiras possíveis são ± 1, ± 2, ± 4. Após substituir os
possíveis valores na equação de grau 3 acima, encontramos que λ = 4 é uma solução inteira. Desta forma,
(λ − 4) é um fator do polinômio, ou seja, conseguimos dividir −λ 3 + 8λ 2 − 17λ + 4 por λ − 4 . Com
isso, podemos reescrever a equação acima como
−λ 3 + 8λ 2 − 17λ + 4 = (λ − 4)(−λ 2 + 4λ − 1) = 0.
Assim, as demais soluções serão aquelas que resolvem a equação de grau 2 acima, ou seja,
−λ 2 + 4λ − 1 = (−1)(λ 2 − 4λ + 1) = 0,
Fornecendo λ = 2 + 3, λ = 2 − 3 .
Portanto, os autovalores se A são dados por
λ1 = 4, λ2 = 2 + 3, λ3 = 2 − 3 .

Observação: Em casos onde a matriz possui dimensão alta, calcular o autovalor por este método não é
uma tarefa simples. Logo, a ideia será utilizar outros métodos para encontrar autovalores. Estes métodos
serão vistos no final deste curso.

Exemplo 4: Autovalores de uma matriz triangular superior.


Encontre os autovalores da matriz triangular superior
a11 a12 a13 a14
0 a22 a23 a24
A= .
0 0 a33 a34
0 0 0 a44
Como vimos, o determinante de uma matriz triangular é dado pelo produto dos elementso da diagonal
principal. Logo,
111

a11 − λ a12 a13 a14


0 a22 − λ a23 a24
det(A − λI ) = det = (a11 − λ)(a22 − λ)(a33 − λ)(a44 − λ) .
0 0 a33 − λ a34
0 0 0 a44 − λ
Logo, a equação característica é dada por
(a11 − λ)(a22 − λ)(a33 − λ)(a44 − λ) = 0,
cujas raízes são dadas por
λ1 = a11, λ2 = a22, λ3 = a33, λ4 = a44,
Ou seja, os autovalores são iguais aos elementos da diagonal principal de A.

De uma maneira geral, temos o seguinte resultado:

Teorema 2: Se A é uma matriz triangular n × n, então os autovalores de A são dados pelos elementos da
diagonal principal de A.

Encontrando autovetores

Vamos estudar agora como podemos encontrar autovetores de uma matriz.

Dado um autovalor λ de uma matriz A (que já vimos como calcular), os autovetores


associados são os vetores não nulos v que satisfazem a equação
(A − λI )v = 0.

Em outras palavras, os autovetores são aqueles vetores não nulos que pertencem ao espaço
nulo da matriz A − λI . Dizemos que este espaço nulo é o autoespaço de A associado a λ .
Podemos dizer então que o autoespaço de A associado ao autovalor λ é o espaço solução do
sistema homogêneo (A − λI )v = 0.

Exemplo 5: Bases de Autoespaços

[8 −1]
3 0
Encontre bases dos autoespaços da matriz A = .

Vimos no exemplo acima que os autovalores de A são dados por λ1 = 3, λ2 = − 1.

[ 2]
x1
Considere v1 = x o autovetor associado ao autovalor λ1 . Com isso, v1 é uma solução não trivial de
11 2

(A − λ1I )v1 = 0, ou seja,

[ 8 −1 − λ1] [x2] [0]


3 − λ1 0 x1 0
= .

Assim, como λ1 = 3, temos que

[8 −4] [x2] [0]


0 0 x1 0
= ,

Cuja solução geral é dada por


1
x1 = t
2
x2 = t .

[ 1 ]
Os autovetores associados a λ1 = 3 são os vetores não nulos da forma v1 = [ ] = t
t/2 1/2
, onde o
t

[ 1 ]
1/2
vetor é uma base do autoespaço associado a λ1 = 3.

Fica como exercício encontrar os autovetores e a base do autoespaço associado a λ2 = − 1.

Exemplo 6: Autovetores e bases de autoespaços.


Encontre bases dos autoespaços de
0 0 −2
[1 0 3 ]
A= 1 2 1 .

A equação característica de A é λ 3 − 5λ 2 + 8λ − 4 = 0 que pode ser fatorada em (λ − 1)(λ − 2)2 = 0


(Exercício!). Logo, os autovalores distintos são λ1 = 1, λ2 = 2.
Sabemos que
x1
v = x2
x3
é um autovetor de A associado a λ se, e somente se, v é solução não trivial de (A − λI )v = 0 , ou em
forma matricial,
−λ 0 −2 x1 0
[0]
1 2−λ 1 x2 = 0 .
1 0 3−λ x3
No caso λ = 2, temos que a equação acima torna-se:
−2 0 −2 x1 0
[1 0 1] x [0]
1 0 1 x2 = 0 .
3
11 3

Resolvendo este sistema por eliminação gaussiana, obtemos (exercício!)


x1 = − s, x2 = t, x3 = s.
Assim, os autovalores de A associados a λ = 2 são os vetores não nulos da forma:
−s −s 0 −1 0
[ s ] [ s ] [0] [1] [0]
v = t = 0 + t =s 0 +t 1 .

−1 0
[ 1 ] [0]
Como os vetores 0 e 1 são LI (Exercício!), temos estes vetores formam a base do autoespaço

associado a λ = 2.
No caso λ = 1, temos que a equação torna-se:
−1 0 −2 x1 0
[1 0 2] x [0]
1 1 1 x2 = 0 .
3

Resolvendo este sistema, obtemos (Exercício!):


x1 = − 2s, x2 = s, x3 = s.
Logo, os autovalores associados a λ = 1 são os vetores não nulos da forma
−2s −2
[ s ] [1]
v= s =s 1 ,

−2
[1]
Onde o vetor 1 forma a base para o autoespaço associado a λ = 1.

Potência de uma matriz

Calcular autovalores e autovetores de uma potência inteira de uma matriz A torna-se


simples caso já tenhamos encontrado os autovalores e autovetores de A. Em outras palavras,
suponha que λ seja um autovalor da matriz A e v o autovetor associado, então:
A 2v = A(Av) = A(λv) = λ(Av) = λ(λv) = λ 2v.
Com isso, observamos que λ 2 é um autovetor da matriz A 2, onde o autovetor permaneceu o
mesmo v. Desta forma, podemos estender este raciocínio para o seguinte resultado:

Teorema 3: Se k é um inteiro positivo, λ um autovalor de uma matriz A e v um autovetor associado,


então λ k é um autovalor de A k e v é um autovetor associado.
11 4

Exemplo 7: Potências de uma matriz.


0 0 −2
[1 0 3 ]
No exemplo anterior, vimos que os autovalores de A = 1 2 1 são λ = 2, λ = 1 . Logo, se

quisermos determinar os autovalores e autovetores da matriz A 7 , por exemplo, basta calcularmos


−1 0
[ 1 ] [0]
λ = 27 = 128 e λ = 17 = 1 são os autovalores de A 7 . Também vimos que 0 e 1 são

autovetores de A associados ao autovalor λ = 2 , de modo que, pelo teorema acima, estes também são
autovetores da matriz A 7 associados ao autovetor λ = 27 = 128.
−2
[1]
De forma análoga, o vetor 1 é um autovetor de A associado ao autovalor λ = 1, onde este também

será um autovetor de A 7 associado ao autovalor λ = 17 = 1.

Para encerrar esta aula, vamos relacionar a invertibilidade de uma matriz aos seus
autovalores pelo seguinte resultado.

Teorema 4: Uma matriz quadrada A é invertível se, e somente se, λ = 0 não é um autovalor de A.

Demonstração:
Seja A uma matriz n × n. Note que a equação característica de A é dada por:
λ n + c1λ n−1 + … + cn = 0.
Assim, λ = 0 é uma solução desta equação se, e somente se, cn = 0. Logo, A é invertível se, e somente se,
cn ≠ 0.
Com isso, como det(A − λI ) = λ n + c1λ n−1 + … + cn , onde fazendo λ = 0 , temos det(A) = cn ,
então det(A) = 0 se, e somente se, cn = 0, ou seja, A é invertível se, e somente se, cn ≠ 0.

Exercício: Suponha que o polinômio característico de alguma matriz A seja


p(λ) = (λ − 1)(λ − 3)2(λ − 4)3 .
Responda cada item justificando sua resposta:
a) Qual é o tamanho da matriz A?
b) A matriz A é invertível?
c) Quantos autoespaços tem A?
11 5

AU L A 16 : D I AG O N A L I Z AÇ Ã O

Nesta aula, vamos estudar o problema de encontrar uma base de ℝn que seja formada por
autovetores de uma dada matriz A, de tamanho n × n.
Estas bases podem ser usadas para estudarmos algumas propriedades geométricas de A e
também para simplificar muitas contas envolvendo a matriz A . Essas bases também têm
significado físico em diversas aplicações, onde veremos algumas posteriormente.

Para iniciarmos vamos definir os seguintes dois problemas a seguir. Apesar de parecerem
diferentes, vamos ver que na verdade são problemas equivalentes.

Problema 1: Dada uma matriz A de tamanho n × n, existe alguma matriz invertível P tal que P −1 AP é
uma matriz diagonal?
Problema 2: Dada uma matriz Ade tamanho n × n, existem n autovetores de A LI?

O produto matricial acima P −1 AP é denominado uma Transformação de Semelhança da


matriz A.

Definição 1: Se A e B forem matrizes quadradas, dizemos que B é semelhante a A se existir alguma


matriz invertível P tal que B = P −1 AP.

Note que, pela definição acima, se B é semelhante a A , então A é semelhante a B , pois se


B = P −1 AP, então, também podemos escrever A = PBP −1 = Q −1BQ , fazendo Q = P −1 .
Desta forma dizemos que A e B são matrizes semelhantes se uma for semelhante à outra.

Quando duas matrizes A e B são semelhantes, diversas propriedades são compartilhadas


entre si. Abaixo segue uma tabela com estas propriedades.

Com isso, observamos que o problema 1 acima se resumo a saber se uma matriz A é
semelhante a alguma matriz diagonal. Se este for o caso, esta matriz diagonal terá as
mesmas propriedades da matriz A , conforme tabela 1 abaixo, porém em um formato mais
simples de se trabalhar.
11 6

Definição 2: Uma matriz quadrada A é dita diagonalizável se for semelhante a alguma matriz
diagonal, ou seja, se existir uma matriz invertível P tal que P −1 AP seja diagonal. Neste caso, dizemos
que a matriz P diagonaliza A.

Com isso, o próximo resultado vai garantir que os dois problemas definidos inicialmente são
equivalentes.

Teorema 1: Seja A uma matriz n × n. São equivalentes:


a) A é diagonalizável;
b) A tem n autovetores linearmente independentes.

Observe que o resultado acima garante quando uma matriz A , n × n , é diagonalizável, mas
não nos diz como podemos encontrar a matriz diagonal associada, ou seja, não nos diz como
podemos diagonalizar uma matriz A . Vamos ver abaixo um procedimento que podemos
aditar para isto.

Procedimento para diagonalizar uma matriz:


Passo 1) Verifique se a matriz é realmente diagonalizável. Isto pode ser feito encontrando n autovetores
LI. Por sua vez, uma maneira de fazer isto é encontrar uma base de cada autoespaço e juntar todos estes
vetores em um conjunto S . Se esse conjunto tiver menos do que n elementos, então a matriz não é
diagonalizável.
Passo 2) Forme a matriz P = [p1 p2 … pn], que possui os vetores de S como vetores coluna.
11 7

Passo 3) A matriz P −1 AP será diagonal com os autovalores λ1, λ2, …, λn , correspondentes aos
autovetores p1, p2, …, pn, como entradas diagonais.

Exemplo 1: Encontrando matriz P que diagonaliza A.


0 0 −2
[1 0 3 ]
Encontre uma matriz P que diagonalize a matriz A = 1 2 1 .

Note que já vimos esta matriz na aula passada, onde vimos que a equação característica de A é dada por
(λ − 1)(λ − 2)2 = 0,
onde também encontramos as seguintes bases dos autoespaços
−1 0
[1] [0]
λ = 2 : p1 = 0 , p2 = 1 ;

−2
[1]
λ = 1 : p3 = 1 .

Assim, temos 3 vetores de base e, então a matriz


−1 0 −2
[1 0 1]
P= 0 1 1

diagonaliza A. Fica como exercício conferir que


1 0 2 0 0 −2 −1 0 −2 2 0 0
[−1 0 −1] [1 0 3 ] [ 1 0 1 ] [0 0 1]
−1
P AP = 1 1 1 1 2 1 0 1 1 = 0 2 0 .

Observação: Em geral não existe uma ordem preferencial para as colunas de P . Note que a i -ésima
entrada diagonal de P −1 AP é um autovalor do i-ésimo vetor coluna de P. Logo, se mudarmos a ordem das
colunas de P, isso só muda a ordem dos autovalores na diagonal de P −1 AP.

Exemplo 2: Uma matriz não diagonalizável.


1 0 0
Encontre uma matriz P que diagonalize A = 1 2 0 .
−3 5 2

Observe que o polinômio característico de A é


11 8

1−λ 0 0
det(A − λI ) = det 1 2−λ 0 = (1 − λ)(2 − λ)2.
−3 5 2−λ
Logo, a equação característica é (1 − λ)(2 − λ)2 = 0, onde os autovalores distintos são dados por λ = 1
e λ = 2. Fica como exercício verificar que as bases dos respectivos autoespaços são dados por
1/8
[ ]
λ = 1 : p1 = −1/8 ;
1
0
[ ]
λ = 2 : p2 = 0 .
1
Porém como A é 3 × 3 e só tem 2 vetores de base dos autoespaços, então A não é diagonalizável.

Os próximos resultados vão nos mostrar como determinar se uma matriz é diagonalizável
apenas olhando para os autovalores da matriz.

Teorema 2: Se v1, v2, …, vk forem autovetores de uma matriz A associados a autovalores distintos, então
o conjunto {v1, v2, …, vk} é LI.

Teorema 3: Se uma matriz A , de tamanho n × n , possui n autovalores distintos, então A é


diagonalizável.

Demonstração:
Se v1, v2, …, vn são autovetores associados aos n autovalores distintos λ1, λ2, …, λn, então pelo Teorema
2 acima, temos n autovetores LI. Assim, pelo Teorema 1, A é diagonalizável.

Assim, observamos que, pelos resultados acima, ao calcularmos os autovalores de uma


matriz, já podemos determinar se esta será diagonalizável ou não. Vamos ver alguns
exemplos de como podemos utilizar este raciocínio.

Exemplo 3: Verificando se a matriz é diagonalizável pelo teorema.


0 1 0
[4 −17 8]
Vimos na aula passada que a matriz A = 0 0 1 possui 3 autovalores distintos, a saber,

λ = 4, λ = 2 + 3, λ = 2 − 3 . Logo, esta matriz é diagonalizável pelo teorema acima.


Além disso, podemos escrever
11 9

4 1 0
P −1 AP = 0 2 + 3 0 ,
0 0 2− 3
para alguma matriz invertível P . Caso queiramos calcular a matriz P , podemos fazê-lo utilizando o
procedimento do exemplo 1 acima.

−1 2 4 0
0 3 1 7
Exercício 1: A matriz triangular A = é diagonalizável? Escreva um resultado que
0 0 5 8
0 0 0 −2
generalize o raciocínio para matrizes triangulares quaisquer.

Potências de matriz diagonalizável

Em diversas aplicações é necessário o cálculo de potências, muitas vezes elevadas, de uma


matriz quadrada. Na aula passada já vimos como relacionar os autovalores e autovetores de
uma matriz e sua potência. Agora vamos ver que se esta matriz for diagonalizável, as contas
podem ser simplificadas.

Considere uma matriz diagonalizável A, de tamanho n × n, e uma matriz invertível P tal que

λ1 0 … 0
0 λ2 … 0
P −1 AP = = D.
⋮ ⋮ ⋮
0 0 … λn
Elevando ambos os lados ao quadrado, obtemos
λ12 0 … 0
−1 2 0 λ22 … 0
(P AP) = = D 2.
⋮ ⋮ ⋮
0 0 … λn2
Por outro lado, observe que
(P −1 AP)2 = (P −1 AP)(P −1 AP) = P −1 AIAP = P −1 A 2 P.
Logo, temos que
12 0

λ12 0 … 0
−1 2 2 0 λ22 … 0
P A P=D = ,
⋮ ⋮ ⋮
0 0 … λn2
onde para uma potência k, inteiro positivo,
λ1k 0 … 0
−1 k k 0 λ2k … 0
P A P=D = ,
⋮ ⋮ ⋮
0 0 … λnk
ou ainda,

λ1k 0 … 0
k k −1 0 λ2k … 0
A = PD P =P P −1.
⋮ ⋮ ⋮
0 0 … λnk

0 0 −2
[1 0 3 ]
13
Exemplo 4: Calcule A , sabendo que A = 1 2 1 .

Observe que a matriz A foi dada no exemplo 1 acima. Além disso, foi mostrado que A é diagonalizada
−1 0 −2 2 0 0
[1 0 1] [0 0 1]
pela matriz P = 0 1 1 e que D = P −1 AP = 0 2 0 .

Assim,
−1 0 −2 2 0 0 1 0 2
[ 1 0 1 ] [0 0 1] [−1 0 −1]
A = PDP −1 = 0 1 1 0 2 0 1 1 1 ,

onde

−1 0 −2 213 0 0 1 0 2 −8190 0 −16382


[1 0 1] [−1 0 −1]
A 13 = PD 13P −1 = 0 1 1 0 213 0 1 1 1 = 8191 8192 8191
0 0 113 8191 0 16383
121

Multiplicidades Geométrica e Algébrica

Vimos no Teorema 3 que se A , n × n , possuir n autovalores distintos, então A é


diagonalizável. Porém, não é verdade que se A não possuir n autovalores distintos, então A é
não-diagonalizável. Nos exemplos 1 e 2 acima, vimos que as duas matrizes possuíam a
mesma equação característica, a saber:
(λ − 1)(λ − 2)2 = 0.
Com isso, vemos que o autovalor λ = 2 está repetido na equação característica ou possui
multiplicidade 2. Entretanto, a matriz do exemplo 1 é diagonalizável e a matriz do exemplo
2 não o é.

O que diferencia os dois exemplos é que no exemplo 1, o autoespaço gerado por λ = 2


possui dimensão 2, onde a matriz é diagonalizável e no exemplo 2, o autoespaço gerado por
λ = 2 possui dimensão 1, onde a matriz não é diagonalizável. Vamos definir melhor estes
termos.

Definição 3: Dada uma matriz A de tamanho n × n e λ0 um autovalor de A . Então a dimensão do


autoespaço associado a λ0 é chamado de multiplicidade geométrica de λ0. Além disso, o número de vezes
que o termo (λ − λ0) aparece como fator no polinômio característico de A é chamado de multiplicidade
algébrica de λ0.

O resultado a seguir relaciona os conceitos de multiplicidades geométrica e algébrica com a


diagonalização de uma dada matriz.

Teorema 4: Seja A uma matriz quadrada. São válidas as afirmações:


a) Dado um autovalor de A , a multiplicidade geométrica é menor ou igual à multiplicidade
algébrica;
b) A matriz A é diagonalizável se, e somente se, a multiplicidade geométrica de cada autovalor é
igual à multiplicidade algébrica.

Exercício 2: Reflita sobre a diagonalização de A nos exemplos 1 e 2 acima usando o teorema 4.


12 2

A U L A 17 : A P L I C A Ç Ã O À S E Q U A Ç Õ E S D I F E R E N C I A I S

Sabemos que muitos fenômenos da física, química, biologia, engenharia e economia podem
ser descritos em termos de equações diferenciais, ou seja, equações que envolvem funções e
suas derivadas.

Nesta aula, vamos estudar uma forma onde podemos relacionar o que estudamos no
conteúdo de autovalores e autovetores à resolução de sistemas de equações diferenciais.

Definição de Equação Diferencial

Uma equação diferencial é uma equação que envolve funções desconhecidas e suas
derivadas.
A ordem de uma equação diferencial é dada pela ordem da maior derivada que aparece na
equação.

Considere a equação diferencial de 1ª ordem abaixo:

y′ = ay

dy
onde y = f (x) é uma função desconhecida a ser determinada, y′ = é sua derivada e a é
dx
uma constante real.

A equação acima possui infinitas soluções da forma:

y = ce ax,

onde c ∈ ℝ é uma constante arbitrária. Observe que estas funções de fato resolvem a
equação diferencial acima, pois

d
[ce ] = cae = a(ce ) = ay.
ax ax ax
y′ =
dx
É possível mostrar que as soluções desta equação diferencial só podem ser deste tipo. Por
conta desta propriedade, dizemos que y = ce ax é a solução geral da equação diferencial
acima.
12 3

Exemplo 1: Exemplo de solução geral.


A equação diferencial y′ = 5y possui solução geral da forma y = ce 5x. A equação diferencial y′ = − 3y
possui solução geral dada por y = ce −3x.

Em muitos casos, quando modelamos um problema com equações diferenciais aparecem


condições que nos ajudam a encontrar uma solução particular dentro do conjunto das
solução geral.
Por exemplo, na equação diferencial do exemplo acima, y′ = − 3y, se exigirmos que a função
satisfaça a condição adicional y(0) = 7 , então substituindo esta condição na solução geral
correspondente, encontramos que
y(0) = ce 0 = c = 7,
ou seja, y = 7e −3x.

Uma condição que especifica o valor da solução em um determinado ponto é chamada de


condição inicial, e o problema de resolver uma equação diferencial com uma condição
inicial é chamado de Problema de Valor Inicial (PVI).

Sistemas Lineares de Primeira Ordem

Nesta aula vamos estudar como resolver um sistema de equações diferenciais de primeira
ordem da forma:

y′1 = a11y1 + a12 y2 + … + a1n yn


y′2 = a21y1 + a22 y2 + … + a2n yn

y′n = an1y1 + an2 y2 + … + ann yn
onde y1 = f1(x), y2 = f2(x), …, yn = fn(x) são funções a determinar e os coeficientes aij são
constantes.
Note que podemos reescrever o sistema linear acima em notação matricial da forma:

y′1 a11 a12 … a1n y1


y′2 a21 a22 … a2n y2
= ,
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
y′n an1 an2 … ann yn

ou ainda
12 4

y′ = Ay,
y1
y2
onde y′ denota o vetor obtido derivando cada componente de y = .

yn

Exemplo 2: Solução de um sistema linear com condições iniciais.


a) Escreva o sistema de equações diferenciais abaixo em forma matricial:
y′1 = 3y1
y′2 = − 2y2 ;
y′3 = 5y3
b) Resolva o sistema;
c) Encontre uma solução do sistema que satisfaça as condições iniciais
y1(0) = 1, y2(0) = 4, y3(0) = − 2.

Solução:
y′1 3 0 0 y1
a) y′2 = 0 −2 0 y2 ;
y′3 0 0 5 y3

b) Como cada equação no sistema só envolve a função incógnita correspondente, então podemos resolver de
forma separada cada equação e obter
y1 = c1e 3x y1 c1e 3x
y2 = c2e −2x , ou em notação matricial y2 = c2e −2x ;
y3
y3 = c3e 5x c3e 5x
c) Pelas condições iniciais dadas, temos que
y1(0) = c1e 0 = c1 = 1
y2(0) = c2e 0 = c2 = 4 .
y3(0) = c3e 0 = c3 = − 2
Logo, a solução será
y1 = 1e 3x y1 1e 3x
y2 = 4e −2x , ou em notação matricial y2 = 4e −2x .
y3
y3 = − 2e 5x −2e 5x
12 5

Devemos observar que a simplicidade da resolução do sistema acima se deu por conta de
cada equação envolver somente uma função incógnita, de modo que na forma matricial do
sistema y′ = Ay, a matriz A era diagonal.

Vamos estudar agora o caso geral para a matriz A , ou seja, o caso onde a matriz A não é
diagonal. Observe que, neste caso, cada equação do sistema vai envolver mais de uma
função incógnita.

A ideia para resolver um sistema do tipo y′ = Ay , onde a matriz de coeficientes A não é


diagonal, é introduzir uma nova variável u da forma y = Pu , com P sendo uma matriz
invertível que diagonaliza A.

Isso vai nos facilitar na resolução pois se y = Pu, então y′ = Pu′ e, então,
Pu′ = A(Pu)
ou seja,
u′ = (P −1 AP)u.
Como supomos que P diagonaliza A , então P −1 AP = D , onde D é uma matriz diagonal.
Assim,
u′ = Du,
com D diagonal. Esta equação é muito simples de se resolver, bastando proceder como no
exemplo acima.

Portanto, encontrando u, conseguimos encontrar y fazendo a multiplicação y = Pu.

Em resumo, temos o seguinte procedimento.

Procedimento para resolver y′ = Ay, com A diagonalizável.


Passo 1) Encontrar uma matriz P que diagonaliza A;
Passo 2) Fazer as substituições y = Pu e y′ = Pu′ para obter um novo sistema u′ = Du , onde
D = P −1 AP é uma matriz diagonal;
Passo 3) Resolver o sistema u′ = Du;
Passo 4) Encontrar y a partir de y = Pu.

Exemplo 3: Solução usando diagonalização.


y′1 = y1 + y2
a) Resolva o sistema ;
y′2 = 4y1 − 2y2
12 6

b) Encontre a solução que satisfaz as condições iniciais y1(0) = 1, y2(0) = 6.

Solução:

[4 −2]
1 1
a) Note que a matriz de coeficientes é dada por A = . Logo, como vimos, a matriz A será

diagonalizável por qualquer matriz P, cujas colunas sejam os autovalores LI de A.


Como

[ 4 −2 − λ]
1−λ 1
det(A − λI ) = det = (1 − λ)(−2 − λ) − 4

= λ 2 + λ − 6 = (λ + 3)(λ − 2),
Os autovalores são λ = − 3 e λ = 2.

[ 2]
v1
Sabemos que v = v é um autovetor associado a A se este é uma solução não trivial (não nula) da

equação

[ 4 −2 − λ] [v2] [0]
1−λ 1 v1 0
= .

Se λ = 2, temos o sistema

[ 4 −4] [v2] [0]


−1 1 v1 0
= .

Resolvendo este sistema, obtemos (exercício) v1 = v2 = t . Com isso,

[ 2] [1]
v1
v= v =[]=t
t 1
,
t

[1]
1
Ou seja, p1 = é uma base do autoespaço associado a λ = 2.

[ 1 ]
−1/4
De forma análoga, podemos verificar (exercício) que p1 = é uma base do autoespaço associado a

λ = − 3.

[1 1 ]
1 −1/4
Logo, P = é uma matriz que diagonaliza A e, além disso,

[0 −3]
2 0
P −1 AP = , o que finaliza o Passo 1 do procedimento acima.

O Passo 2 é realizar a seguinte substituição


y = Pu e y'=P u’,
Pois como y′ = Ay, teríamos que
Pu′ = A(Pu) ⇒ u′ = (P −1 AP)u = Du,
12 7

Que é um novo sistema u′ = Du , com matriz dos coeficientes D , matriz diagonal formada pelos
autovalores de A, ou seja,

[0 −3]
2 0 u′1 = 2u1
u′ = u ⇒ .
u′2 = − 3u2
O Passo 3 consiste em resolver o sistema acima, o que já sabemos que a solução geral é dada por
u1 = c1e 2x c1e 2x
[c2e −3x]
−3x
⇒ u= .
u2 = c2e
O Passo 4 consiste em encontrar a solução y = Pu, a partir da solução acima.
Logo,
c2 −3x

[ 2] [1 1 ] [c2e −3x] [c e 2x +
2x c1e 2x − e
−3x ]
y1 1 −1/4 c1e 4
y= y = = ,
1 c2e
Ou ainda,
c2 −3x
y1 = c1e 2x − 4
e
.
2x
y2 = c1e + c2e −3x
b) Como y1(0) = 1, y2(0) = 6, temos que
c2
y1(0) = c1 − 4
=1
.
y2(0) = c1 + c2 = 6
Resolvendo este sistema linear (exercício), obtemos c1 = 2, c2 = 4 , onde a solução do PVI associado é
dada por
y1 = 2e 2x − e −3x
.
y2 = 2e 2x + 4e −3x

Exercício 1:
y′1 = y1 + 4y2
a) Resolva o sistema ;
y′2 = 2y1 + 3y2
b) Encontre a solução que satisfaz as condições iniciais y1(0) = 0, y2(0) = 0.

Exercício 2:
y′1 = 4y1 + y3
a) Resolva o sistema y′2 = − 2y1 + y2 ;
y′3 = − 2y1 + y3
b) Encontre a solução que satisfaz as condições iniciais y1(0) = − 1, y2(0) = 1, y3(0) = 0.
12 8

ESPAÇ OS C OM PRODUTO INTERN O

INTRODUÇÃO

Em aulas passadas, revisamos o conceito de produto escalar entre vetores de ℝn e utilizamos


este para definir várias noções como comprimento, ângulo, distância e ortogonalidade. Nesta
última parte do curso, vamos estender estes conceitos a espaços vetoriais arbitrários, não
somente ao ℝn. Além disso, também vamos fazer algumas aplicações destes conceitos.
12 9

AU L A 18 : E S PAÇ O S C O M P R O D U T O I N T E R N O

Nesta aula, vamos estender alguns conceitos mais importantes relacionados a produto
escalar, como comprimento, distância, ângulo e perpendicularidade a espaços vetoriais
arbitrários.

Produto Interno

Em algumas aulas atrás, definimos o conceito de produto escalar entre dois vetores de ℝn ,
além de outras propriedades. Vamos definir abaixo o que seria um “produto escalar para
espaços vetoriais arbitrários”.

Definição 1: Um Produto Interno em um espaço vetorial V é uma função que associa a um par de
vetores (u, v) em V, a imagem real ⟨u, v⟩ ∈ ℝ, satisfazendo:
1. ⟨u, v⟩ = ⟨v, u⟩ (Simetria)
2. ⟨u + v, w⟩ = ⟨u, w⟩ + ⟨v, w⟩ (Aditividade)
3. ⟨au, v⟩ = a⟨u, v⟩ (Homogeneidade)
4. ⟨v, v⟩ ≥ 0 e ⟨v, v⟩ = 0 se, e somente se, v = 0 (Positividade)
Um espaço vetorial com esta função é chamado de espaço com produto interno.

Note que todos os axiomas acima são satisfeitos em ℝn se definirmos o seguinte produto
interno:

⟨u, v⟩ = u ⋅ v = u1v1 + u2v2 + … + unvn .

Este produto interno é chamado de produto interno euclidiano ou canônico em ℝn . O


espaço vetorial ℝn com o produto interno euclidiano acima é chamado de espaço
euclidiano de dimensão n.

Baseado na definição acima podemos relacionar o produto interno com a norma de um vetor
e a distância entre dois vetores da seguinte forma:

Definição 2: Se V é um espaço com produto interno, então a norma (ou comprimento) de um vetor
v ∈ V é definido por
13 0

∥v∥ = ⟨v, v⟩ .
Quando um vetor possui norma 1, ou seja, se ∥v∥ = 1, dizemos que v é um vetor unitário.
A distância entre dois vetores u, v ∈ V é denotada por d(u, v) e definida por
d(u, v) = ∥u − v∥ = ⟨u − v, u − v⟩ .

A seguir vamos ver algumas propriedades do produto interno.

Propriedade 1: Se u e v forem vetores em um espaço com produto interno V e k um escalar, então:


a) ∥v∥ ≥ 0, com ∥v∥ = 0 se, e somente se, v = 0;
b) ∥k v∥ = | k |∥v∥ ;
c) d(u, v) = d(v, u);
d) d(u, v) ≥ 0, com d(u, v) = 0 se, e somente se, u = v.

Observação 1: Existem aplicações onde podemos ponderar cada parcela do produto interno euclidiano
usual da seguinte forma:
Se w1, w2, …, wn forem números reais positivos, chamados de pesos, u = (u1, u2, …, un) e
v = (v1, v2, …, vn) forem vetores de ℝn, então é possível mostrar que
⟨u, v⟩ = w1(u1v1) + w2(u2v2) + … + wn(unvn)
define um produto interno em ℝn, que denominamos produto interno euclidiano ponderado, com pesos
w1, w2, …, wn.

Exemplo 1: Produto interno euclidiano ponderado.


Sejam u = (u1, u2) e v = (v1, v2) vetores em ℝ2. Verifique que a função
⟨u, v⟩ = 3u1v1 + 2u2v2
é um produto interno em ℝ2.

Solução:
1. Observe que ⟨u, v⟩ = ⟨v, u⟩;
2. ⟨u + v, w⟩ = 3(u1 + v1)w1 + 2(u2 + v2)w2 = 3(u1w1 + v1w1) + 2(u2w2 + v2w2)
= (3u1w1 + 2u2w2) + (3v1w1 + 2v2w2) = ⟨u, w⟩ + ⟨v, w⟩
3. ⟨au, v⟩ = 3(au1)v1 + 2(au2)v2 = a(3u1v1 + 2u2v2) = a⟨u, v⟩;
4. ⟨v, v⟩ = 3v12 + 2v22 ≥ 0, onde 3v12 + 2v22 = 0 se, e somente se, v1 = v2 = 0, ou seja, v = 0.
131

É importante ressaltar que a norma e a distância dependem do produto interno que está
sendo adotado. Em outras palavras, se o produto interno mudar, as normas e as distâncias
também mudarão.

Por exemplo, observe que os vetores u = (1,0) e v = (0,1) em ℝ2 , com o produto interno
euclidiano, satisfazem:
∥u∥ = 1
e
d(u, v) = ∥u − v∥ = ∥(1, − 1)∥ = 12 + (−1)2 = 2.
Porém, se considerarmos o produto interno ponderado do exemplo 1, obtemos que
∥u∥ = ⟨u, u⟩1/2 = (3.(1) . (1) + 2.(0) . (0))
1/2
= 3
e
d(u, v) = ∥u − v∥ = ⟨u − v, u − v⟩1/2

= ⟨(1, − 1), (1, − 1)⟩1/2 = (3.(1) . (1) + 2.(−1) . (−1))


1/2
= 5.

Os produtos internos euclidiano e ponderado podem ser vistos como casos particulares de
um produto interno mais geral, chamado de produto interno matricial. Para definir este
produto interno, considere dois vetores em forma de matriz coluna u, v ∈ ℝn e seja a matriz
A, uma matriz n × n invertível. Pode ser mostrado que a fórmula
⟨u, v⟩ = Au ⋅ Av
Também define um produto interno em ℝn , chamado de produto interno gerado por A .
Agora, observe que se u, v estiverem em forma de coluna, então u ⋅ v = v T u (Verifique
isso!). Logo, a expressão acima poderá ser escrita como
⟨u, v⟩ = (Av)T Au
Ou ainda,
⟨u, v⟩ = v T A T Au.

Exemplo 3: Produto interno gerado por matrizes.


Como comentado acima, os produtos internos canônico e ponderado são exemplos de produtos internos
matriciais.
O produto interno euclidiano ponderado que vimos acima ⟨u, v⟩ = 3u1v1 + 2u2v2 pode ser visto como o
13 2

produto interno de ℝ2 gerado pela matriz

[0 2]
3 0 3 0
A= ⇒ AT A = .
0 2

[0 2] [u2]
3 0 u1
⟨u, v⟩ = v T A T Au = [v1 v2] = 3u1v1 + 2u2v2.

Exemplo 4: Produto interno gerado por matrizes


De uma maneira geral, na fórmula acima, se tomarmos A = I , ou seja, se A for a matriz identidade,
obtemos
⟨u, v⟩ = Iu ⋅ Iv = u ⋅ v (produto interno canônico).
Por outro lado, um produto interno ponderado geral da forma
⟨u, v⟩ = w1(u1v1) + w2(u2v2) + … + wn(unvn)
pode ser visto como resultado do produto interno matricial ⟨u, v⟩ = v T A T Au , onde a matriz A é dada
por:
w1 0 0 … 0
0 w2 0 … 0
A= .
⋮ ⋮ ⋮ ⋮
0 0 0 … wn

Propriedade 2: Se u, v, w forem vetores em um espaço com produto interno V, onde k ∈ ℝ é um escalar,


então:
1. ⟨0, v⟩ = ⟨v, 0⟩ = 0
2. ⟨u, v ± w⟩ = ⟨u, v⟩ ± ⟨u, w⟩
3. ⟨u ± v, w⟩ = ⟨u, w⟩ ± ⟨v, w⟩
4. k⟨u, v⟩ = ⟨u, k v⟩ = ⟨ku, v⟩.

Ângulo e Ortogonalidade

Vimos na parte 2 do nosso curso que o ângulo entre dois vetores u, v em ℝn pode ser
calculado a partir de
13 3

u⋅v
cos(θ) = .
∥u∥∥v∥
Esta definição pode ser estendida a espaços vetoriais que possuem produto interno da
seguinte forma:

Definição 3: Dados dois vetores u, v em um espaço com produto interno, o ângulo θ entre u e v
⟨u, v⟩
cos(θ) = .
∥u∥∥v∥

Observação: Conseguimos definir o cosseno do ângulo entre os vetores por conta de um resultado
importante abaixo:

Desigualdade de Cauchy-Schwarz:
Dados u, v ∈ V, com V espaço com produto interno, então
| ⟨u, v⟩ | ≤ ∥u∥∥v∥.

⟨u, v⟩
Com esta desigualdade, temos que −1 ≤ ≤ 1 e, então, podemos garantir que existe um único
∥u∥∥v∥
⟨u, v⟩
ângulo θ ∈ [0,π] tal que cos(θ) = .
∥u∥∥v∥

Exercício 1: Considere o seguinte produto interno em ℝ2:


⟨u, v⟩ = 3u1v1 + 5u2v2
Calcule o ângulo entre os vetores u = (4,3) e v = (−1,2) de ℝ2 com o produto interno acima.

Definição 4: Dizemos que dois vetores u, v de um espaço com produto interno são ortogonais se
⟨u, v⟩ = 0.

Exemplo 4: Ortogonalidade depende do Produto interno


Notemos que os vetores u = (1,1) e v = (1, − 1) são ortogonais em relação ao produto interno
euclidiano em ℝ2, visto que u ⋅ v = 1.1 + 1.(−1) = 0.
Porém, estes vetores não são ortogonais em relação a produto interno euclidiano ponderado do exercício
acima ⟨u, v⟩ = 3u1v1 + 5u2v2 , pois ⟨u, v⟩ = 3.1.1 + 5.1.(−1) = − 2 ≠ 0.
13 4

Exemplo 5: Vetores Ortogonais em P2.


Considere o produto interno em P2:
1

∫−1
⟨p, q⟩ = p(x) . q(x)d x.

Observe que, se p = x e q = x 2, temos que


1/2 1/2
1 1

[ ∫−1 ] [ ∫−1 ]
2
∥p∥ = ⟨p, p⟩1/2 = x . xd x = x 2d x = .
3
1/2 1/2
1 1

[ ∫−1 ] [ ∫−1 ]
2
∥q∥ = ⟨q, q⟩1/2 = x 2 . x 2d x = x 4d x = .
5
1/2 1/2
1 1

[ ∫−1 ] [ ∫−1 ]
⟨p, q⟩1/2 = x . x 2d x = x 3d x = 0.

Complemento Ortogonal

Definição 5: Se W for um subespaço de um espaço com produto interno V,


então o conjunto de todos os vetores em V que são ortogonais a cada vetor
em W é denominado complemento ortogonal de W e denotado por W ⊥.

Propriedade 3: Se W for um subespaço de um espaço com produto interno


V, então:
1. W ⊥ é um subespaço de V;
2. W ∩ W ⊥ = {0};
3. (W ⊥)⊥ = W.

Exemplo 6: Complementos Ortogonais.


O complemento ortogonal de uma reta W que passa
pela origem em ℝ2 é a reta que passa pela origem
perpendicular à W. O complemento ortogonal de um
plano W que passa pela origem em ℝ3 é a reta que
passa pela origem perpendicular àquele plano.
13 5

AU L A 19 : P RO C E S S O D E G R A M - S C H M I D T

Nesta aula, vamos estender o conceito de ortogonalidade entre dois vetores a conjuntos de
vetores em um espaço com produto interno. Esta noção vai nos auxiliar em problemas onde
precisamos escolher bases apropriadas para resolver certos problemas envolvendo espaços
vetoriais.

Conjuntos Ortogonais e Ortonormais

Definição 1: Dizemos que um conjunto de dois ou mais vetores em um espaço com produto interno real é
ortogonal se quaisquer dois vetores distintos do conjunto forem ortogonais. Um conjunto ortogonal no
qual cada vetor possui norma 1 é dito ortonormal.

Exemplo 1: Conjunto ortogonal e ortonormal em ℝ3.


Considere os vetores
u1 = (0,1,0), u2 = (1,0,1), u3 = (1,0, − 1)
e suponha que ℝ3 tenha o produto interno euclidiano. Então o conjunto de vetores S = {u1, u2, u3} é
ortogonal, pois ⟨u1, u2⟩ = ⟨u1, u3⟩ = ⟨u2, u3⟩ = 0.
Por outro lado, como as normas euclidianas destes vetores são dadas por
∥u1∥ = 1, ∥u2∥ = 2, u3 = 2,
Temos que os vetores
u1
v1 = = (0,1,0),
∥u1∥

∥u2∥ ( 2 2)
u 1 1
v2 = 2 = ,0, ,

∥u3∥ ( 2 2)
u3 1 1
v3 = = ,0, − ,

São ortogonais entre si, além de serem unitários, ou seja, o conjunto S = {v1, v2, v3} é ortonormal.

Propriedade 1: Se S = {v1, v2, …, vn} é um conjunto ortogonal de vetores não nulos em um espaço com
produto interno, então S é linearmente independente (LI).
13 6

Se este conjunto de vetores ortogonais for uma base, dizemos que esta é uma base
ortogonal. Além disso, se este conjunto de vetores é ortonormal, então dizemos que esta é
uma base ortonormal.

Coordenadas em relação a bases ortogonais

Já vimos que encontrar as coordenadas de um vetor u com relação a uma base


S = {v1, v2, …, vn} é equivalente a encontrar os coeficientes ci, i = 1,2,…, n , da
combinação linear
u = c1v1 + c2v2 + … + cnvn .

Porém, se esta base for ortogonal ou ortonormal, estes coeficientes podem ser obtidos de
forma mais simples através do cálculo de produto interno entre os vetores.

Propriedade 2:
1. Se S = {v1, v2, …, vn} é uma base ortogonal de um espaço com produto interno V e u é um
vetor qualquer de V, então:
⟨u, v1⟩ ⟨u, v2⟩ ⟨u, vn⟩
u= v 1 + v2 + … + vn ;
∥v1∥ 2 ∥v2∥ 2 ∥vn∥ 2

2. Se S = {v1, v2, …, vn} é uma base ortonormal de um espaço com produto interno V e u é um
vetor qualquer de V, então:
u = ⟨u, v1⟩v1 + ⟨u, v2⟩v2 + … + ⟨u, vn⟩vn .

Observação: Pela propriedade acima, o vetor de coordenadas de um vetor u em relação a uma base
ortogonal S = {v1, v2, …, vn} é dado por

( ∥v1∥2 ∥v2∥2 ∥vn∥2 )


⟨u, v1⟩ ⟨u, v2⟩ ⟨u, vn⟩
(u)S = , , …,

e em relação a uma base ortonormal S = {v1, v2, …, vn} é dado por


(u)S = (⟨u, v1⟩, ⟨u, v2⟩, …, ⟨u, vn⟩).

Exercício 1:
a) Mostre que os vetores
w1 = (0,2,0), w2 = (3,0,3), w3 = (−4,0,4)
formam uma base ortogonal de ℝ3 , e use esta base para encontrar uma base ortonormal normalizando
137

cada vetor.
b) Expresse o vetor u = (1,2,4) como uma combinação linear dos vetores da base ortonormal obtida
no item acima.

Projeção Ortogonal

Quando estamos resolvendo algum problema aplicado, a solução é obtida de forma mais
rápida e simples quando trabalhamos com vetores de base ortogonais ou ortonormais.
Geralmente essas bases são encontradas através de um processo que transforma uma base
simples em uma base ortogonal ou ortonormal. Para estudarmos este processo, vamos
precisar refletir primeiramente sobre projeções ortogonais.

Propriedade 3: Teorema da projeção.


Se W for um subespaço de dimensão digita de um espaço com produto interno V, então cada vetor u ∈ V
pode ser expresso de maneira única como
u = w1 + w2 ,
onde w1 é um vetor em W e w2 é um vetor em W ⊥.

Os vetores acima podem ser escritos como


w1 = projW u e w2 = projW⊥u
e denominados projeção ortogonal de u em W e projeção ortogonal de u em W ⊥ ,
respectivamente.
O vetor w2 também é denominado componente de u ortogonal a
W.

Com isso, podemos reescrever a fórmula da propriedade acima


como
u = projW u + projW⊥u.

Além disso, como projW⊥u = u − projW u, também podemos escrever a equação acima como
u = projW u + (u − projW u).

A próxima propriedade vai nos fornecer uma fórmula para calcularmos estas projeções
ortogonais.
13 8

Propriedade 4: Seja W um subespaço de dimensão finita de um espaço com produto interno V.


a) Se {v1, v2, …, vr} é uma base ortogonal de W e u um vetor qualquer de V, então
⟨u, v1⟩ ⟨u, v2⟩ ⟨u, vr⟩
projW u = v1 + v2 + … + vr ;
∥v1∥2 ∥v2∥2 ∥vr∥2
b) Se {v1, v2, …, vr} é uma base ortonormal de W e u um vetor qualquer de V, então
projW u = ⟨u, v1⟩v1 + ⟨u, v2⟩v2 + … + ⟨u, vr⟩vr .

Exemplo 2: Calculando projeções.


Considere ℝ3 com o produto interno euclidiano e W o subespaço gerado pelos vetores ortonormais
v1 = (0,1,0) e v2 = (−4/5, 0, 3/5). Vamos calcular a projeção ortogonal de u = (1,1,1) em W:
projW u = ⟨u, v1⟩v1 + ⟨u, v2⟩v2
= (1) . (0,1,0) + (−1/5) . (−4/5, 0, 3/5) = (4/25, 1, − 3/25).
A componente de u ortogonal a W é
projW⊥u = u − projW u
= (1,1,1) − (4/25, 1, − 3/25) = (21/25, 0, 28/25).
Note que projW⊥u é ortogonal a ambos v1 e v2 , de modo que esse vetor é ortogonal a todos os vetores no
espaço W, gerado por v1 e v2.

O Processo de Gram-Schmidt

Vimos que as bases ortonormais possuem uma variedade de propriedades úteis. A seguir,
vamos ver a principal propriedade que mostra que cada espaço vetorial de dimensão finita
possui uma base ortonormal. O processo de construção desta base é chamado de processo
de Gram-Schmidt, que vamos detalhar abaixo.

Propriedade 5: Todo espaço vetorial não nulo de dimensão finita possui alguma base ortonormal.

Considere W um subespaço não nulo de dimensão finita de algum espaço com produto
interno e suponha que {u1, u2, …, ur} seja uma base qualquer de W . Observe que basta
mostrar que W tem uma base ortogonal, pois esses vetores podem ser normalizados para se
tornarem uma base ortonormal. A seguir vamos ver como produzir uma base ortogonal
{v1, v2, …, vr} de W:
13 9

Passo 1. Defina v1 = u1;

Passo 2. Vamos obter um vetor v2 que seja ortogonal a v1 .


Para isso, vamos tomar a componente de u2 ortogonal ao
espaço W1, gerado por v1, da seguinte forma:
⟨u2, v1⟩
v2 = u2 − projW u2 = u2 − v1 .
1 ∥v1∥ 2

Como u1 e u2 são LI, temos v2 ≠ 0.

Passo 3. Agora vamos construir um vetor v3 ortogonal a ambos v1


e v2 . Para isso, vamos calcular a componente de u3 ortogonal ao
espaço W2, gerado por v1 e v2:
⟨u3, v1⟩ ⟨u3, v2⟩
v3 = u3 − projW u3 = u3 − v1 − v2
2 ∥v1∥ 2 ∥v2∥ 2

Como u1, u2 e u3 são LI, temos v3 ≠ 0.

Passo 4. Vamos determinar agora um vetor v4 que seja ortogonal a v1, v2, v3 . Para isso,
vamos calcular a componente de u4 ortogonal a W3, gerado por v1, v2, v3:
⟨u4, v1⟩ ⟨u4, v2⟩ ⟨u4, v3⟩
v4 = u4 − projW u4 = u4 − v1 − v2 − v3.
3 ∥v1∥2 ∥v2∥2 ∥v3∥2

Procedendo desta forma, depois de r passos, obtemos um conjunto ortogonal


{v1, v2, …, vr}. Pela propriedade 1 acima, sabemos que conjuntos ortogonais são LI. Logo,
esse conjunto é uma base ortogonal do espaço W , de dimensão r . Se normalizarmos esses
vetores, obtemos uma base ortonormal.

Em resumo, obtemos um procedimento para obtenção de uma base ortogonal (ou


ortonormal) a partir de uma base qualquer, chamado de Processo de Gram-Schmidt, da
seguinte forma:

Processo de Gram-Schmidt:
Transformação de uma base {u1, u2, …, ur} em uma base ortogonal {v1, v2, …, vr}:
Passo 1) v1 = u1
⟨u2, v1⟩
Passo 2) v2 = u2 − v1
∥v1∥ 2
14 0

⟨u3, v1⟩ ⟨u3, v2⟩


Passo 3) v3 = u3 − v1 − v2
∥v1∥ 2 ∥v2∥ 2
⟨u4, v1⟩ ⟨u4, v2⟩ ⟨u4, v3⟩
Passo 4) v4 = u4 − v − v − v
∥v1∥2 1 ∥v2∥2 2 ∥v3∥2 3

(continuar até r passos)
Passo opcional) Converter a base ortogonal em uma base ortonormal {q1, q2, …, qr}.

Exemplo 3: Usando processo Gram-Schmidt


Considere o espaço vetorial ℝ3 com o produto interno euclidiano. Aplique o processo de Gram-Schmidt
para transformar os vetores de base
u1 = (1,1,1), u2 = (0,1,1), u3 = (0,0,1)
em uma base ortogonal {v1, v2, v3} e depois, normalize esta base para produzir uma base ortonormal
{q1, q2, q3}.
Solução:
Passo 1) v1 = u1 = (1,1,1)
⟨u2, v1⟩
Passo 2) v2 = u2 − projW u2 = u2 − v
1 ∥v1∥2 1

( 3 3 3)
2 2 1 1
= (0,1,1) − (1,1,1) = − , , .
3
⟨u3, v1⟩ ⟨u3, v2⟩
Passo 3) v3 = u3 − projW u3 = u3 − v − v
2 ∥v1∥2 1 ∥v2∥2 2

2/3 ( 3 3 3 ) ( 2 2)
1 1/3 2 1 1 1 1
= (0,0,1) − (1,1,1) − − , , = 0, − , .
3
Assim, os vetores

( 3 3 3) ( 2 2)
2 1 1 1 1
v1 = (1,1,1), v2 = − , , , v3 = 0, − ,

Formam uma base ortogonal de ℝ3. Como as normas destes vetores são:
6 1
∥v1∥ = 3, ∥v2∥ = , ∥v3∥ = ,
3 2
Temos que uma base ortonormal de ℝ3 é dada por

∥v1∥ ( 3 ) ( ) ∥v3∥ ( )
v1 1 1 1 v 2 1 1 v3 1 1
q1 = = , , , q2 = 2 = − , , , q3 = = 0, − , ,
3 3 ∥v2 ∥ 6 6 6 2 2
141

AUL A 20: INTRODUÇÃO AOS MÍNIMOS QUADRADOS

Nesta aula, vamos usar os resultados anteriores sobre projeções ortogonais em espaços com
produto interno para obter uma técnica de como ajustar uma reta ou uma outra curva a um
conjunto de pontos no plano determinados experimentalmente.

Ajuste de uma curva a dados

Quando fazemos um trabalho experimental é comum realizarmos uma coleta de dados


referentes ao fenômeno estudado. Esses dados podem ser de diferente natureza e dimensão.
Nesta parte do curso vamos nos concentrar em dados bidimensionais da forma:
(x1, y1), (x2, y2), … , (xn, yn).

Logo, um problema comum é obter uma relação matemática do tipo y = f (x) entre as
variáveis x e y através do “ajuste” de uma curva aos pontos determinados
experimentalmente acima.

Existem algumas possibilidades para a forma geral da curva y = f (x) a ser ajustada. Dentre
elas, podemos destacar:
1. Reta: y = a + bx
2. Polinômio Quadrático: y = a + bx + cx 2
3. Polinômio Cúbico: y = a + bx + cx 2 + d x 3.

Devemos ressaltar que uma vez que os pontos (ou dados) são obtidos experimentalmente,
sempre há algum “erro” de medição nos dados, de forma que encontrar uma curva que passe
por todos os pontos ao mesmo tempo é impossível. Logo, a ideia é escolher uma curva (ou
seja, determinando seus coeficientes) que “melhor” ajusta os dados.
14 2

Ajuste Linear de Mínimos Quadrados

Vamos nos restringir agora ao caso em que queiramos ajustar uma reta da forma y = a + bx
aos pontos (x1, y1), (x2, y2), … , (xn, yn).

Primeiramente devemos observar que, se estes dados fossem colineares, então a reta
passaria por todos os n pontos e os coeficientes a serem determinados a, b satisfariam as
equações:

y1 = a + bx1
y2 = a + bx2

yn = a + bxn

Com isso, poderíamos escrever esse sistema em forma matricial como

1 x1 y1
y2
⋮ [b]
1 x2 a
=
⋮ ⋮
1 xn yn

ou ainda, como Mv = y, onde


1 x1 y1
y2
,v=[ ]ey=
1 x2 a
M= .
⋮ ⋮ b ⋮
1 xn yn

Por outro lado, se os pontos não forem colineares, é impossível encontrar coeficientes a, b
que satisfaçam o sistema acima de forma exata, ou seja, o sistema é inconsistente. Nesse
caso, vamos procurar uma solução “aproximada” do sistema linear.

De uma maneira geral, dado um sistema linear da forma


Ax = b,
Encontrar um x que chegue “tão perto quanto possível” da solução significa encontrar um
vetor que minimize o “erro cometido”
b − Ax.
A seguir, vamos ver uma definição mais clara.
14 3

Definição 1: Mínimos Quadrados.


Considere um sistema linear Ax = b de m equações e n incógnitas. Um problema dos mínimos
quadrados consiste em encontrar um vetor x que minimiza ∥b − Ax∥ em relação ao produto interno
euclidiano de ℝm.
Dizemos que o vetor x é uma solução de mínimos quadrados do sistema, que b − Ax é o vetor erro
de mínimos quadrados e que ∥b − Ax∥ é o erro de mínimos quadrados.

Propriedade 1: Solução de Mínimos Quadrados.


Dado qualquer sistema linear Ax = b, podemos escrever o sistema associado
A T Ax = A T b,
chamado de sistema normal, onde este sistema é consistente e todas as suas soluções são soluções de
mínimos quadrados de Ax = b.
Além disso, se W for o espaço coluna de A e x uma solução de mínimos quadrados qualquer de Ax = b ,
então
projW b = Ax.

Voltando ao problema de ajuste linear aos dados, observamos que a solução aproximada que
procuramos é a solução de mínimos quadrados, onde vamos denotá-la por

[b*]
a*
v = v* = .

Com isso, dizemos que a reta y = a* + b*x é uma reta


de regressão dos dados ou um ajuste linear de
mínimos quadrados aos dados se os coeficientes da
reta provêm de uma solução de mínimos quadrados,
ou seja, uma solução que minimiza
∥y − Mv∥.
Note que a norma acima pode ser escrita como

∥y − Mv∥2 = (y1 − a − bx1)2 + (y2 − a − bx2)2 + … + (yn − a − bxn)2.


14 4

Logo, denotando
d1 = | y1 − a − bx1 | , d2 = | y2 − a − bx2 | , … , dn = | yn − a − bxn | ,
temos que
∥y − Mv∥2 = d12 + d22 + … + dn2 ,
onde os números di podem ser vistos como a distância vertical entre a reta y = a + bx e o
ponto (xi, yi) . Essa distância é uma forma de medir o erro no ajuste da curva y = a + bx ao
dado (xi, yi).

Pela propriedade 1 acima, podemos escrever o seguinte resultado sobre a solução de


mínimos quadrados.

Propriedade 2: Unicidade da solução de mínimos quadrados.


Considere o conjunto de dois ou mais pontos de dados
(x1, y1), (x2, y2), … , (xn, yn)
não todos em uma reta vertical, e também
1 x1 y1
1 x2 y2
M= e y= .
⋮ ⋮ ⋮
1 xn yn

Então existe um único ajuste linear de mínimos quadrados


y = a* + b*x
aos pontos de dados. Além disso,

[b*]
a*
v* =

é dado pela fórmula


v* = (M T M )−1M T y
Que expressa a solução v = v* do sistema normal
M T Mv = M T y

Exemplo 1: Reta de Mínimos Quadrados.


Encontre o ajuste linear de mínimos quadrados aos quatro pontos
(0,1), (1,3), (2,4), (3,4).
Solução:
14 5

Pela propriedade 2 acima, precisamos primeiro montar a matriz M. Observe que


1 x1 1 0 1
1 x2 1 1 3
M= = e y= .
⋮ ⋮ 1 2 4
1 xn 1 3 4
Com isso,

[6 14] 20 [−6 4 ]
T 4 6 T −1 1 14 −6
M M= , (M M ) =

e
1

20 [−6 4 ] [0 1 2 3] 4 [1]
1 14 −6 1 1 1 1 3 1,5
v* = (M T M )−1M T y = = .

4
Logo, a reta de regressão procurada é dada por y = 1,5 + x .

Exemplo 2: Constante de uma mola.


Sabemos que a lei de Kooke, da Física, afirma que o comprimento x de ma
mola uniforme é uma função linear da força y aplicada à mola.
Descrevendo essa relação da forma y = a + bx , o coeficiente b é
denominado constante da mola.
Suponha que uma determinada mola estendida tenha um comprimento de
6,1cm (ou seja, x = 6,1, y = 0). Aplicando forças de 2kg, 4kg e 6kg
à mola, obtemos os comprimentos correspondentes de 7,6 cm, 8,7 cm e
10,4cm. Encontre a constante dessa mola.
Solução:
Procedendo da mesma forma que no exemplo anterior, temos que
1 6,1 0
1 7,6 2
M= e y=
1 8,7 4
1 10,4 6
e

[b*] [ 1,4 ]
a* −8,6
v* = = (M T M )−1M T y ≈ .

Assim, a constante da mola é dada por b* ≈ 1,4kg/cm.


14 6

Caso geral: Ajuste Polinomial de Mínimos Quadrados

No caso anterior estivemos interessados em aproximar os dados por uma reta de regressão.
Entretanto, a técnica pode ser estendida para ajustar os dados por um polinômio de
qualquer grau.

Suponha que queiramos ajustar um polinômio de grau fixo m


y = a0 + a1x + … + am x m
aos n pontos
(x1, y1), (x2, y2), … , (xn, yn).
Substituindo esses valores de x e y no polinômio acima, obtemos as n equações

y1 = a0 + a1x1 + … + am x1m
y2 = a0 + a1x2 + … + am x2m

yn = a0 + a1xn + … + am xnm
onde, em formato matricial, obtemos

y = Mv
onde
y1 1 x1 x12 … x1m a0
y2 1 x2 x22 … x2m a1
y= ,M= , v= .
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
yn am
1 xn xn2 … xnm

De forma análoga ao caso de uma reta, devemos também obter as soluções do sistema
normal:

M T Mv = M T y,
onde a solução corresponde aos coeficientes do polinômio e o vetor v minimiza
∥y − Mv∥.

Assim, se a matriz M T M for invertível, então o sistema normal acima possui uma única
solução, dada por
v* = (M T M )−1M T y.
147

Exemplo 3: Ajustando uma curva quadrática a dados.


De acordo com a segunda lei de Newton do movimento, um corpo perto da superfície da Terra cai
verticalmente para baixo de acordo com a equação:
1 2
s = s0 + v0t + gt ,
2
onde s é o deslocamento vertical para baixo relativo a algum ponto fixado, s0 é o deslocamento inicial no
instante t = 0, v0 é a velocidade inicial no instante t = 0, g é a aceleração da gravidade na superfície da
Terra. Na equação acima são desconhecidos o deslocamento e a velocidade iniciais e são medidas, em certos
instantes, as distâncias que o corpo tenha caído em relação a algum ponto de referência fixado.
Suponha que seja realizado um experimento num laboratório para estimar g usando essa equação.
Digamos que, nos instantes t = 0.1, 0.2, 0.3, 0.4, 0.5 segundos, tenha sido observado que o
corpo caiu s = − 0.18, 0.31, 1.03, 2.48, 3.73 pés, respectivamente, desde o ponto de
referência. Encontre um valor aproximado de g usando esses dados.
Solução:
Nosso problema consiste em ajustar a curva quadrática
s = a0 + a1t + a2t 2
Aos cinco pontos de dados
(0.1, − 0.18), (0.2, 0.31), (0.3, 1.03), (0.4, 2.48), (0.5, 3.73).
Observe que as matrizes M e y são
1 t1 t12
1 0.1 0.01 s1 −0.18
1 t2 t22 1 0.2 0.02 s2 0.31
M = 1 t3 t32 = 1 0.3 0.09 , y = s3 = 1.03 .
1 0.4 0.16 s4 2.48
1 t4 t42
1 0.5 0.25 s5 3.73
1 t5 t52
Logo, efetuando as contas (exercício), temos que
a*
0 −0.40
T −1 T
v* = a*
1 = (M M ) M y = 0.35 .
a*
2
16.1
1
Pela equação quadrática da segunda lei de Newton, temos que a2 = g, ou seja,
2
2 2
g = 2a*
2
= 2.(16.1) = 32.2 pés/segundo = 9.81456 m/segundo .

Você também pode gostar