Escolar Documentos
Profissional Documentos
Cultura Documentos
Borislav D. Boyanov
ii
Prefácio
Índice
Prefácio 1
1 Aproximação de Funções 1
1.1 Fórmula de interpolação de Lagrange . . . . . . . . . . . . . . . . 3
1.2 Polinômios de Chebyshev . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Diferenças divididas. Fórmula de interpolação de Newton . . . . 12
1.4 Diferenças finitas. Fórmula de interpolação com diferenças finitas 19
1.5 Problema de interpolação de Hermite . . . . . . . . . . . . . . . . 23
1.6 Diferenças divididas com nós múltiplos . . . . . . . . . . . . . . . 28
1.7 Sistemas de Chebyshev: interpolação por polinômios trigonométricos 35
1.8 Transformada rápida de Fourier . . . . . . . . . . . . . . . . . . 42
1.9 Funções splines. Interpolação por splines cúbicas . . . . . . . . . 44
1.10 B-splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.11 Melhor aproximação em espaços lineares normados . . . . . . . . 60
1.12 Aproximação uniforme de funções por polinômios algébricos . . . 65
1.13 Teorema de Weierstrass . . . . . . . . . . . . . . . . . . . . . . . 72
1.14 Polinômios ortogonais . . . . . . . . . . . . . . . . . . . . . . . . 77
1.15 Aproximação em espaços de Hilbert . . . . . . . . . . . . . . . . 84
Aproximação de Funções
p(x) = a0 xn + a1 xn−1 + · · · + an ,
simples.
Neste livro por πn denotaremos todos os polinômios algébricos de grau menor
ou igual a n.
Outra classe de funções simples são os tolinômios trigonométricos. Vamos
recordar que toda expressão da forma
n
X
tn (x) = a0 + (ak cos kx + bk sen kx)
k=1
8) ρ(f, g) ≥ 0, ρ(f, g) = 0 ⇐⇒ f = g;
2) ρ(f, g) = ρ(g, f ) ∀f, g ∈ F;
3) ρ(f, g) ≤ ρ(f, h) + ρ(h, g) ∀f, g, h ∈ F.
P (xk ) = yk , k = 0, . . . , n. (1.1.1)
P (x) = a0 xn + · · · + an .
a0 xn0 + a1 xn−1
0 + · · · + an−1 x0 + an = y0
a0 xn1 + a1 xn−1
1 + · · · + an−1 x1 + an = y1
··· · ·
a0 xnn + a1 xn−1
n + · · · + an−1 xn + an = yn
xnn · · · xn 1
4 Capı́tulo1. Aproximação de Funções
x0 x1 xk xn
Figura 1
Assim,
1
A = Qn
i=0,i6=k (xk − xi )
e, finalmente,
(x − x0 ) · · · (x − xk−1 )(x − xk+1 ) · · · (x − xn )
lnk (x) = . (1.1.2)
(xk − x0 ) · · · (xk − xk−1 )(xk − xk+1 ) · · · (xk − xn )
Os polinômios {lnk }nk=0 são chamados polinômios básicos de Lagrange. Com a
ajuda deles, a solução P do problema de interpolação (1.1.1) pode ser facilmente
construida. Mostraremos que a solução P (x) de (1.1.1) é dada pela fórmula
n
X
P (x) = yk lnk (x). (1.1.3)
k=0
P (xk ) = f (xk ), k = 0, . . . , n,
Teorema 1 Seja x0 < . . . < xn e f (x) definida nesses pontos. Então existe
um único polinômio de πn que interpola f em x0 , . . . , xn . Este polinômio é
representado pela fórmula
n n
X Y x − xi
Ln (f ; x) = f (xk ) . (1.1.4)
xk − xi
k=0 i=0,i6=k
6 Capı́tulo1. Aproximação de Funções
onde
ω(x) = (x − x0 ) · · · (x − xn ).
f (x) − Ln (f ; x) − C(x − x0 ) · · · (x − xn ) = 0
determinamos
Rn (f ; x)
C= . (1.1.5)
(x − x0 ) · · · (x − xn )
Então, para toda escolha de C, a função F (t) tem n + 2 zeros, que são os
pontos x, x0 , . . . , xn . Pelo teorema de Rolle, F ′ (t) tem pelo menos n + 1 ze-
ros que pertencem ao intervalo (min{x, x0 , . . . , xn }, max{x, x0 , . . . , xn }), F ′′ (t)
tem pelo menos n zeros,. . . , F (n+1) (t) tem pelo menos um zero no intervalo
(min{x, x0 , . . . , xn }, max{x, x0 , . . . , xn }). Denotemos este zero por ξ. Temos
que F (n+1) (ξ) = 0. Por outro lado,
Portanto,
f (n+1) (ξ)
C= .
(n + 1)!
Comparando esta igualdade com (1.1.5), obtemos
f (n+1) (ξ)
Rn (f ; x) = (x − x0 ) · · · (x − xn ).
(n + 1)!
Mn+1
|f (x) − Ln (f ; x)| ≤ max |(x − x0 ) · · · (x − xn )|,
(n + 1)! x∈[a,b]
8 Capı́tulo1. Aproximação de Funções
onde Mn+1 é um limite superior para |f (n+1) (x)| em [a, b]. Daı́, é claro que a
estimativa do erro na aproximação de f (x) pelo polinômio de interpolação de
Lagrange depende essencialmente da escolha dos nós x0 , . . . , xn , pois a quanti-
dade
max |(x − x0 ) · · · (x − xn )|
x∈[a,b]
T0 (x) = 1,
T1 (x) = cos(arccos x) = x.
Analogamente,
Além disso, a equação vale somente para aqueles x de [−1, 1] para os quais
| cos(n arccos x)| = 1, isto é, para
(2k − 1)π
ξk = cos , k = 1, . . . , n.
2n
Mostraremos, agora, a seguinte propriedade extrema dos polinômios de Chebyshev
10 Capı́tulo1. Aproximação de Funções
y =1
x j
x 1
h n = -1 h
j 1= h
0
y = -1
Figura 2
menos n zeros em [−1, 1]. Mas, Q ∈ πn−1 . Consequentemente Q(x) ≡ 0, isto é,
P (x) ≡ Tn (x).
O teorema está provado.
1 1
max |Tn (x)| ≤ max |P (x)|.
2n−1 x∈[−1,1] 2n−1 x∈[−1,1]
1
= max |(x − x∗0 ) · · · (x − x∗n )|
2n−1 x∈[−1,1]
onde {x∗k }nk=0 são os zeros do polinômio de Chebyshev Tn+1 (x), isto é,
(2k + 1)π
x∗k = cos , k = 0, . . . , n.
2(n + 1)
2 a+b
xk = tk − , k = 0, . . . , n.
b−a b−a
f (x1 ) − f (x0 )
= (x − x0 ) + f (x0 )
x1 − x0
= f [x0 , x1 ](x − x0 ) + f (x0 )
p(x) interpola f em x1 , . . . , xn
q(x) interpola f em x0 , . . . , xn−1 .
Consideremos o polinômio
(x − x0 )p(x) − (x − xn )q(x)
r(x) := .
xn − x0
Desde que p e q são de πn−1 , então r é um polinômio algébrico de grau ≤ n.
Além disso, para i ∈ {1, . . . , n − 1},
(xi − x0 )f (xi ) − (xi − xn )f (xi )
r(xi ) = = f (xi ).
xn − x0
Para i = 0 e i = n temos
r(x0 ) = − xx0n−x
−x0 q(x0 )
n
= f (x0 ),
xn −x0
r(xn ) = xn −x0 p(xn ) = f (xn ).
r(x) ≡ Ln (f ; x).
α = f [x1 , . . . , xn ] e
β = f [x0 , . . . , xn−1 ].
Consequentemente,
f [x1 , . . . , xn ] − f [x0 , . . . , xn−1 ]
D= = f [x0 , . . . , xn ].
xn − x0
14 Capı́tulo1. Aproximação de Funções
onde ω(x) := (x−x0 ) · · · (x−xn ). Pela última igualdade vemos que o coeficiente
de xn em Ln (f ; x) é igual a
n
X f (xk )
Qn .
k=0 i=0,i6=k (xk − xi )
para toda permutação (i0 , . . . , in ) dos ı́ndices (0, . . . , n). De fato, para qual-
quer permutação dos ı́ndices, mudam somente as posições das parcelas na soma
(1.3.12).
Provaremos que se f (x) = a0 xn + · · · + an−1 x + an , então
f [x0 , . . . , xn ] = a0 .
Lk+1 (f ; x) − Lk (f ; x),
A = f [x0 , . . . , xk+1 ]
Esta é a fórmula de Newton que, às vezes, escrevemos de forma mais abreviada
como
n
X
Ln (f ; x) = f [x0 , . . . , xk ](x − x0 ) · · · (x − xk−1 ), (1.3.15)
k=0
Mas, desde que x é um dos nós de interpolação para Ln+1 (f ; t), então Ln+1 (f ; x) =
f (x). Portanto,
f (n+1) (ξ)
f (x) = Ln (f ; x) + (x − x0 ) · · · (x − xn ),
(n + 1)!
obtida quando f tem derivada contı́nua até de ordem (n + 1). No primeiro caso
o resto da interpolação por Ln (f ; x) é escrito como
e, no segundo, como
f (n+1) (ξ)
ω(x),
(n + 1)!
onde ξ é um ponto. Cosequentemente, a diferença dividida de f em n + 2
pontos x0 , . . . , xn , x é igual à derivada de ordem (n + 1) em um ponto inter-
mediário. Esta propriedade de diferença dividida é muito importante. Vamos,
então, escrevê-la:
Suponha que f (x) tem derivadas contı́nuas de ordem k, inclusive no intervalo
[a, b] e sejam x0 , x1 , . . . , xk pontos arbitrários distintos em [a, b]. Então,
f (k) (ξ)
f [x0 , x1 , . . . , xk ] = , (1.3.17)
k!
onde ξ é algum ponto do intervalo (min{x0 , . . . , xk }, max{x0 , . . . , xk }). Desde
que esta relação segue diretamente se f ∈ πk−1 , então f [x0 , x1 , . . . , xk ] = 0 (pois
f (k) (t) ≡ 0).
Pela fórmula de Newton fica claro que para construir o polinômio de inter-
polação Ln (f ; x) é suficiente achar as diferenças divididas f [x0 , x1 , . . . , xk ], k =
0, . . . , n. Existe um esquema muito simples e conveniente para realizar compu-
tacionalmente os cálculos das diferenças divididas. Ele é baseado na relação de
recorrência.
18 Capı́tulo1. Aproximação de Funções
É fácil verificar que o polinômio p(x) realmente satisfaz às condições de inter-
polação exigidas.
1.4 Diferenças finitas. Fórmula de interpolação com diferenças finitas 19
pontos que estão próximos de x0 e, por isso, trazem informações mais completas
para o valor de f em x. Seguindo essa lógica, devemos aproximar f (x) em pon-
tos, próximos do último nó xn , usando uma fórmula de interpolação em que os
nós são colocados em ordem oposta: xn , xn−1 , . . . , x0 . Obteremos esta fórmula
também. Pela fórmula de Newton
n
X
Ln (f ; x) = f [xn , xn−1 , . . . , xn−k ](x − xn ) · · · (x − xn−k+1 ).
k=0
{ykl , k = 0, . . . , n, l = 0, . . . , νk − 1}
Teorema 6 Para toda escolha dos nós de interpolação {xk }n0 (xi 6= xj para
i 6= j) e para toda tabela de dados {ykl } o problema de interpolação de Hermite
(1.5.19) tem uma única solução .
onde, para todo k ∈ {0, . . . , n}, os polinômios básicos Φk0 , Φk1 ∈ π2n+1 são
determinados pelas condições
Φk0 (xi ) = δki , Φ′k0 (xi ) = 0,
(1.5.21)
Φk1 (xi ) = 0, Φ′k0 (xi ) = δki ,
para i = 0, . . . , n. Usamos, aqui, o sı́mbolo de Kronecker δki ,
(
0 para k 6= i,
δki :=
1 para k = i.
1.5 Problema de interpolação de Hermite 25
e determinamos A,
1 1
A= = ′ .
ωk2 (xk ) [ω (xk )]2
Substituimos esse valor na segunda condição,
e determinamos B,
ωk′ (xk )
B = −2 .
ωk3 (xk )
Falta somente observar que 2ωk′ (xk ) = ω ′′ (xk ). De fato, temos
· ¸′
′ ω(x)
ωk (xk ) =
x − xk x=xk
ω ′ (x)(x − xk ) − ω(x) ω ′′ (xk )
= lim = .
x→xk (x − xk )2 2!
Consequentemente,
ω ′′ (xk )
· ¸
1
Φk0 (x) = ωk2 (x) − (x − xk )
ωk2 (xk ) ωk3 (xk )
¸2
ω ′′ (xk )
· ¸·
ω(x)
= 1− ′ (x − xk ) .
ω (xk ) (x − xk ω ′ (xk )
Pelas condições (1.5.21) podemos achar facilmente a forma explı́cita de Φk1 (x).
Desde que xi é raiz com multiplicidade 2 de Φk1 (x) para i 6= k e xk é raiz
simples, então
Φk1 (x) = Cωk2 (x)(x − xk ).
A constante C, determinamos pela condição Φ′k1 (xk ) = 1. Obtemos, então,
Cωk2 (xk ) = 1.
26 Capı́tulo1. Aproximação de Funções
onde
νkX
−λ−1 ¾(µ) ¯¯
(x − xk )νk
½
1 Ω(x) 1
Hkλ (x) = (x − xk )µ
¯
λ! (x − xk )νk −λ µ! Ω(x)
¯
¯
µ=0 x=xk
0 para i 6= k, j = 0, . . . , νi − 1,
(j)
Hkλ (xi ) = 0 para i = k, j 6= λ,
1 para i = k, j = λ.
Quando i 6= k a igualdade segue pelo fato que Hkλ tem o fator (x − xi )νi .
(j)
Temos que mostrar que Hkλ (xk ) = δjλ . Para este proposito, vamos denotar
1.5 Problema de interpolação de Hermite 27
(s)
Desde que g (s) (xk ) = Tm (g; xk ) para s = 0, . . . , m, é claro que
¯ ¯
(s) ¯ (s) ¯
{f (x)g(x)} ¯ = {f (x) Tm (g; x)} ¯
x=xk x=xk
1 (x − xk )λ
Hkλ (x) = Tνk −λ−1 (g; x),
λ! g(x)
f (N +1) (ξ)
f (x) − HN (f ; x) = (x − x0 )ν0 · · · (x − xn )νn . (1.5.23)
(N + 1)!
f ′ (a) f (N ) (a)
p(x) = f (a) + (x − a) + · · · + (x − a)N ,
1! N!
construı́do pela fórmula de Taylor satisfaz à condição
f (N ) (a)
(1) f [x0 , . . . , xn ] = para x0 = · · · = xN = a.
N!
A razão principal para introduzir essas diferenças divididas é revelada na
seguinte afirmação.
N
X −1
p1 (t) := f [x0 , . . . , xk ](t − x0 ) · · · (t − xk−1 )
k=0
30 Capı́tulo1. Aproximação de Funções
Do Lema 2
tabela
0 1
0
0 1 1
0 -3
0 1 −2
−2
1 −1
Uma verificação direta mostra que o polinômio obtido satisfaz às condições
de interpolação.
Continuidade da diferença dividida. Pela definição de diferença divi-
dida, para toda sequência x0 , . . . , xN de pontos distintos, poderı́amos extender
esta definição para quaisquer pontos por continuidade (isto é, por limite). Por
exemplo, poderı́amos definir a diferença dividida de f no ponto a com multipli-
cidade 2 pela igualdade
f (a + h) − f (a)
lim f [a, a + h] = lim = f ′ (a),
h→0 h→0 h
se f é uma função diferenciável em a, por esta abordagem obterı́amos
f [a, a] = f ′ (a).
Mas, este é exatamente o resultado que já obtivemos pela nossa definição. Acon-
tece que as duas abordagens conduzem ao mesmo resultado não somente neste
caso particular. Em geral, são equivalentes. Esta afirmação é consequência da
1.6 Diferenças divididas com nós múltiplos 33
então,
p(j) (ti ) = f (j) (ti ), i = 1, . . . , n, j = 0, . . . , νi − 1.
Consequentemente a diferença f (x)−p(x) tem pelo menos N +1 zeros, contando
as multiplicidades. Então, pelo Teorema de Rolle, f ′ (x) − p′ (x) tem pelo menos
N zeros, . . . , f (N ) (x) − p(N ) (x) tem pelo menos um zero ξ e este zero pertence
ao intervalo [x0 , xN ]. Temos
f [x1 , . . . , xN ] − f [x0 , . . . , xN −1 ]
lim f [x0 , . . . , xN ] = lim
x̄→ȳ x̄→ȳ xN − x0
½ ¾
1
= lim f [x1 , . . . , xN ] − lim f [x0 , . . . , xN −1 ]
yN − y0 x̄→ȳ x̄→ȳ
f [y1 , . . . , yN ] − f [y0 , . . . , yN −1 ]
= = f [y0 , . . . , yN ] .
yN − y0
O teorema está provado.
A seguinte afirmação nos dá uma regra para se calcular diferenças divididas
do produto de duas funções.
Então,
det D[x0 , . . . , xn ] 6= 0
a0 ϕ0 (xk ) + · · · + an ϕn (xk ) = yk , k = 0, . . . , n,
eikx + e−ikx z k + z −k
cos kx = = ,
2 2
eikx ne−ikx z k − z −k
sen kx = = ,
2i 2i
então
−
1X
tn (x) = a0 + [(ak − ibk )z k + (ak + ibk )z −k ]
2
k=1
38 Capı́tulo1. Aproximação de Funções
n
X 2n
X
= ck z k = z −n ck−n z k =: z −n P2n (z),
k=−n k=0
onde c0 = a0 e
1
ck = (ak − ibk ), k = 1, . . . , n,
2
1
c−k = (ak + ibk ), k = 1, . . . , n.
2
Vamos supor, agora, que o polinômio trigonométrico não nulo tn (x) tem
2n + 1 zeros distintos em [0, 2π). A relação acima implica que o polinômio
algébrico P2n (z) tem 2n+1 zeros distintos na circunferência unitária. De acordo
com o teorema fundamental da álgebra, ele tem 2n zeros em todo o plano
complexo ou é identicamente zero. Portanto, P2n ≡ 0. Segue que ck = 0,
k = n, . . . , n, o que implica nas igualdades ak = 0, bk = 0 para todo k admissı́vel.
Assim obtemos tn (x) ≡ 0. O lema está provado.
Como consequência imediata do lema podemos concluir que as funções
Teorema 14 Sejam α ≤ x0 < · · · < x2n < α + 2π. Então, para toda função
2n
f definida nos pontos {xi }0 existe um único polinômio trigonométrico , tn , de
ordem n, tal que
Afirmamos que
2n
Y sen x−x
2
i
λk (xj ) = 0, j 6= k,
λk (xk ) = 1,
de onde segue imediatamente que a expressão (2) satisfaz às condições de in-
terpolação (1). Precisamos somente nos convencer de que λk (x), e daı́ também
tn (x), é de fato um polinômio trigonométrico de ordem n. Para este fim, usare-
mos indução em n.
Para n = 1 a expressão λk (x) é um produto de dois senos, ou seja, ela é da
forma
x−α x−β
sen sen .
2 2
Usando fórmulas conhecidas para transformações trigonométricas, obtemos
· µ ¶¸
x−α x−β 1 β−α α+β
sen sen = cos − cos x −
2 2 2 2 2
1 β−α 1 α+β 1 α+β
= cos − cos x cos − sen x sen
2 2 2 2 2 2
= A0 + A1 cos x + B1 sen x
Teorema 15 Sejam {xk }2n k=0 pontos arbitrários tais que α ≤ x0 < x1 < · · · <
x2n < α + 2π para algum α e seja f uma função arbitrária definida nesses
pontos. Então,
2n 2n
X Y sen x−x
2
i
τn (f ; x) = f (xk )
k=0 i=0,i6=k
sen xk −x
2
i
sen n + 21 x
¡ ¢
1
(4) + cos x + cos 2x + · · · + cos nx = .
2 2 sen x2
Temos µ ½ ¾¶
x 1
2 sen + cos x + cos 2x + · · · + cos nx
2 2
x x x x
= sen + 2 cos x sen + 2 cos 2x sen + · · · + 2 cos nx sen
2 2 2 2
µ ¶ µ ¶
x 3x x 5x 3x
= sen + sen − sen + sen − sen + ···
2 2 2 2 2
1.7 Sistemas de Chebyshev: interpolação por polinômios trigonométricos 41
µ ¶
1 1
+ sen (n + )x − sen (n − )x
2 2
µ ¶
1
= sen n + x,
2
2kπ
xk = , k = 0, . . . , 2n.
2n + 1
O núcleo de Dirichlet é zero em todos os nós xk que são distintos de x0 = 0.
De fato:
³ ´
sen 2n+12
2kπ
2n+1 sen kπ
Dn (xk ) = kπ
= kπ
= 0 z k = 1, 2, . . . , 2n.
2 sen 2n+1 2 sen 2n+1
De fato,
µ ¶
2 2 1
λk (xk ) = Dn (xk − xk ) = n+ = 1,
2n + 1 2n + 1 2
e, para i 6= k,
2
λk (xi ) = Dn (xi − xk )
2n + 1
µ ¶
2 2π
= Dn (i − k)
2n + 1 2n + 1
2
= Dn (xi−k ) = 0.
2n + 1
42 Capı́tulo1. Aproximação de Funções
e, finalmente,
2n
sen (n + 12 )(x − xk )
¡ ¢
1 X
(5) τn (f ; x) = f (xk ) .
2n + 1
k=0
sen x−x 2
k
2kπ
xk = , k = 0, . . . , 2n.
2n + 1
Para este propósito, vamos lembrar que, de acordo com a fórmula (5) da Seção
1.7,
2n
sen n + 12 (x − xk )
¡ ¢
1 X
τ (x) = f (xk )
2n + 1
k=0
sen x−x
2
k
2n ½ ¾
2 X 1
= f (xk ) + cos(x − xk ) + · · · + cos n(x − xk ) .
2n + 1 2
k=0
obtemos
2n n
à !
2 X 1 X
τ (x) = f (xk ) + cos mxk cos mx + sen mxk sen mx
2n + 1 2 m=1
k=0
n
1 X
= A0 + (Am cos mx + Bm sen mx) ,
2 m=1
onde
2n
2 X 2kmπ
Am := f (xk ) cos ,
2n + 1 2n + 1
k=0
(1)
2n
2 X 2kmπ
Bm := f (xk ) sen .
2n + 1 2n + 1
k=0
Consequentemente, o cálculo do polinômio interpolador trigonométrico τ se re-
duz ao cálculo dos coeficientes Am e Bm pelas fórmulas (1).
A transformação
Z 2π
ˆ
f (x) → f (t) := f (x)e−itx dx
0
(f0 , f1 , . . . , fN −1 ) → (C0 , . . . , CN −1 ),
onde
N −1
1 X
Cm = fk e−2πkim/N , m = 0, . . . , N − 1,
N
k=0
é chamada transformação de Fourier discreta. Podemos ser observar que os
coeficientes Am e Bm estão relacionados com Cm quando N = 2n + 1. Temos
m = m1 q + m0 , 0 ≤ m0 < q
k = k1 p + k0 , 0 ≤ k0 < p.
44 Capı́tulo1. Aproximação de Funções
p−1 q−1
1 X X
¡ m0 k1 mk0 ¢
−2πi + N
= fk1 p+k0 e q
pq
k0 =0 k1 =0
p−1 q−1
( )
1 X 1 X m0 k 1 mk0
= fk1 p+k0 e2πi q e−2πi N .
p q
k0 =0 k1 =0
Consequentemente,
p−1
1 X (1) n2πi mk0
(3) Cm = Ck0 e N ,
p
k0 =0
(1)
onde Ck0 são expressões semelhantes parecidas a de Cm , mas número menor de
elementos na soma. A fórmula (3) é uma relação de recorrência que é utilizada
para o cálculo dos coeficientes Cm .
(1)
Quando N é potência de dois ( N = 2s ), a redução de Cm para Ck0 e
(2)
esses, para os Cj , etc., é feita por fórmulas simples e convenientes nas quais é
baseado um algoritmo rápido para o cálculo de Cm .
√
Vamos considerar, por exemplo, o caso p = q ≈ N . Neste caso para
(1)
calcular todos os Ck0 precisamos de pq 2 multiplicações. Depois, para calcular
todos os Cm pela fórmula (3) precisamos de mais qp2 multiplicações. Em geral,
obtemos
√
pq 2 + qp2 = pq(p + q) ≈ 2N N = 2N 3/2 ,
A função P (x) é uma curva polinomial por partes que aproxima o gráfico
de f com uma determinada precisão. Em geral, P (x) é contı́nua nos pontos
x1 , . . . , xm . Se f descreve um processo suave, é desejável que a função que
aproxima também seja suave. Para atingir este efeito, impõe-se a condição
adicional de que as partes polinomiais sejam conectadas suavemente, isto é,
que as derivadas de pi−1 (x) e pi (x), até uma determinada ordem, coincidam no
ponto de conexão xi . Como resultado, obtemos uma curva suave que aproxima
bem f . Tais curvas suaves que passam por alguns pontos dados são chamadas
”splines”.
As propriedades interessantes das funções spline e as suas conexões com
outras áreas da matemática mostram que o seu surgimento vem da lógica interna
do desenvolvimento da própria matemática.
Definição 5 A função s(x) é chamada função spline de grau r com nós x1 <
· · · < xn se:
f (x + 0) := lim f (x + h).
h→0,h>0
e, da’ı,
ck r! = s(r) (xk + 0) − s(r) (xk − 0),
que coincide com a fórmula (2).
O polinômio p(x) na representação (1) é unicamente determinado pois coin-
cide com o polinômio P0 (x). O teorema está provado.
Desde que cada expressão da forma (1) é uma spline de classe Sr (x1 , . . . , xn ),
o teorema implica que Sr (x1 , . . . , xn ) coincide com o conjunto de todas as
funções da forma (1). Consequentemente, a dimensão do espaço linear Sr (x1 , . . . , xn )
é igual a r + n + 1.
Discutiremos, agora, o problema de interpolação por funções spline. Con-
sideremos o problema de interpolação de Lagrange por splines de grau três,
chamadas também de splines cúbicas. São as mais usadas na prática.
Seja f (x) uma função real contı́nua em [a, b]. Queremos construir uma spline
cúbica s(x) com nós em x1 , . . . , xn que interpola f (x) nos pontos x0 , . . . , xn+1
onde a = x0 < x1 < · · · < xn+1 = b. Construir s significa determinar os
polinômios {Pi (x)} de grau três que representam s(x) nos intervalos (xi , xi+1 ),
i = 0, . . . , n, respectivamente. As condições de interpolação
s(xi ) = f (xi ), i = 0, . . . , n + 1,
o que garante que s(x) é função contı́nua em [a, b]. Lembremos que todo po-
linômio cúbico é determinado por quatro condições de interpolação. Por en-
quanto, toda parte cúbica Pi (x) de s(x) interpola f (x) somente nos pontos xi e
xi+1 . Portanto, temos à disposição mais duas condições de interpolação. Esco-
lheremos essas condições de modo que s seja não apenas contı́nua, mas que tenha
primeira e segunda derivadas contı́nuas, isto é, que s(x) seja spline cúbica. Há
maneiras diferentes de escolher essas duas condições de interpolação adicionais
48 Capı́tulo1. Aproximação de Funções
que levam a métodos diferentes para funções cúbicas por partes. Por enquanto,
vamos exigir que Pi (x) satisfaça às condições
onde d0 , . . . , dn+1 são parâmetros cuja escolha vai ser feita posteriormente. As
últimas condições garantem que s′ (x) é uma função contı́nua em [a, b]. Para de-
terminar Pi (x) pelas condições de interpolação de Hermite (4) e (5), utilizaremos
a fórmula de Newton
2
Pi (x) = Pi (xi ) + Pi [xi , xi ](x − xi ) + Pi [xi , xi , xi+1 ](x − xi )
2
+ Pi [xi , xi , xi+1 , xi+1 ](x − xi ) (x − xi+1 ).
Pi (xi ) = f (xi ) ,
Pi [xi , xi ] = di ,
f [xi , xi+1 ] − di
Pi [xi , xi , xi+1 ] = ,
∆i
di+1 − 2f [xi , xi+1 ] + di
Pi [xi , xi , xi+1 , xi+1 ] = .
(∆i )2
Observe que todas as diferenças divididas de Pi em quatro pontos são idênticas
e iguais ao coeficiente do termo de maior grau de Pi (x).
n+1
Escolhendo os parâmetros {di }0 de modos diferentes obtemos diferentes
funções interpoladoras. Tomemos um caso particular especial.
Interpolação cúbica de Hermite por partes. Escolhemos
di = f ′ (xi ), i = 0, . . . , n + 1.
sob a hipótese de que f tenha derivada contı́nua de ordem quatro em [a, b].
Consequentemente, para todo x de [a, b], obtemos
µ ¶4
max ∆i
0≤i≤n
¯ ¯
|f (x) − s(x)| ≤ max ¯f (4) (ξ)¯ .
¯ ¯
ξ∈[a,b] 384
Interpolação por spline cúbica. Como já notamos, a função s(x) de-
terminada pelas condições (4) e (5), não é apenas contı́nua para qualquer es-
colha dos parâmetros di . Mostremos, agora, que sempre é possı́vel escolher os
parâmetros {di } de modo que a função s(x) tenha a segunda derivada contı́nua,
isto é, que s(x) seja spline cúbica.
A nossa exigência de que s′′ (x) seja contı́nua é equivalente às condições
′′
(6) Pi−1 (xi ) = Pi′′ (xi ), i = 1, . . . , n.
onde
bi = 3(f [xi−1 , xi ]∆i + f [xi , xi+1 ]∆i−1 ), i = 1, . . . , n.
Vamos supor que d0 e dn+1 são escolhidos de alguma maneira. Assim, por (7),
obtemos um sistema linear de n equações com n incógnitas d1 , . . . , dn . Este
sistema tem diagonal principal dominante, isto é, o módulo do elemento da
diagonal é maior do que a soma dos módulos de todos os elementos da mesma
linha fora da diagonal. É fácil mostrar que toda matriz com diagonal principal
50 Capı́tulo1. Aproximação de Funções
dominante tem determinante não-nulo. Portanto, o sistema (7) sempre tem uma
única solução para qualquer escolha de d0 e dn+1 .
Existem duas maneiras diferentes de escolher os parâmetros d0 e dn+1 .
I) Se f ′ (a) e f ′ (b) são conhecidas, é natural escolher
f (xk ) = yk , para k = 0, . . . , n + 1.
Demonstração. Seja f uma função arbitrária de F (x̄, ȳ) e seja s(x) uma
spline cúbica de F (x̄, ȳ) com nós x0 , . . . , xn+1 . A integral
Z b
σ := [f ′′ (x) − s′′ (x)] s′′ (x) dx
a
n+1
X Z xi
σ = [f ′′ (x) − s′′ (x)] s′′ (x) dx
i=1 xi−1
¯xi
n+1
X ¯ n+1
X Z xi
= s′′ (x) [f ′ (x) − s′ (x)] ¯ − [f ′ (x) − s′ (x)] s′′′ (x) dx.
¯
i=1
¯
i=1 xi−1
xi−1
Mas, s é uma spline cúbica. Logo s coincide com um polinômio de grau três
no subintervalo (xi−1 , xi ) e, portanto, s′′′ (x) é constante em (xi−1 , xi ). Vamos
denotar esta constante por ci . Obtemos, então,
n+1
¯xi n+1
¯xi
X ¯ X ¯
σ= s′′ (x) [f ′ (x) − s′ (x)] ¯ − ci [f (x) − s(x)]¯ .
¯ ¯
¯ ¯
i=1 xi−1 i=1 xi−1
Além disso a função s′′ (x) [f ′ (x) − s′ (x)] é contı́nua nos pontos {xj }n+1 0 . Por-
tanto, a soma de todos os termos que contêm os valores desta função nos pontos
interiores é nula pois participam de dois termos consectivos da soma com sinais
opostos. Vão sobrar somente os valores no primeiro e no último ponto. Assim,
obtemos
(8)
Z b
σ= [f ′′ (x) − s′′ (x)] s′′ (x) dx = s′′ (b) [f ′ (b) − s′ (b)] − s′′ (a) [f ′ (a) − s′′ (a)] .
a
Observe, agora, que se s é uma spline natural de F (x̄, ȳ), então s′′ (a) =
′′
s (b) = 0 e, consequentemente, σ = 0. Em outras palavras, as funções
f ′′ (x) − s′′ (x) e s′′ (x) são ortogonais. Mas, se duas funções f1 e f2 são or-
togonais, obviamente
Z b Z b
f12 (x) dx ≤ [f1 (x) + f2 (x)]2 dx,
a a
52 Capı́tulo1. Aproximação de Funções
f ′ (a) − s′ (a) = 0,
f ′ (b) − s′ (b) = 0,
e, por (8), novamente segue que as funções f ′′ (x) − s′′ (x) e s′′ (x) são ortogonais.
1.10 B-splines
Já mostramos que toda spline de grau r − 1 com nós x1 < · · · < xn pode ser
representada como combinação linear de um polinômio p de πr−1 e da sequência
de funções
r−1 r−1
(x − x1 )+ , . . . , (x − xn )+ .
Tal representação da spline não é conveniente quando trabalhamos em um com-
putador pela seguinte razão. Se n é muito grande, o valor da spline s(x) no
ponto x ∈ (xi , xi+1 ) é escrito como soma de um grande número de expressões,
precisamente n + r. Por outro lado, s(x) é um polinômio de grau r − 1 em
(xi , xi+1 ) e é natural escrevê-lo como combinação linear de r funções linearmente
independentes. Quando fazemos cálculos com grande número de expressões ob-
temos erros que podem levar a imprecisões essenciais no resultado final. Agora,
introduziremos uma outra base no espaço das splines que não apresenta essa
desvantagem.
r−1
Definição 6 A diferença dividida da função (x − t)+ com relação a x nos
pontos x0 < · · · < xr é chamada B-spline de grau r − 1 com nós x0 , . . . , xr .
1.10 B-splines 53
1
onde ck = ω ′ (xk ) e ω(x) := (x − x0 ) . . . (x − xr ). Consequentemente,
r
r−1
X
B(x0 , . . . , xr ; t) = ck (xk − t)+ ,
k=0
B(x0 , . . . , xr ; t) = 0 para t ≤ x 0 e t ≥ xr ,
B(x0 , . . . , xr ; t) > 0 para t ∈ (x0 , xr ).
Demonstração.
r−1
a) Seja t ≤ x0 . Logo, xk −t ≥ 0 para todo k. Consequentemente, (xk − t)+ =
r−1 r−1 r−1
(xk − t) e B(x0 , . . . , xr ; t) = (· − t) [x0 , . . . , xr ]. Mas, (x − t) é um po-
linômio de grau r − 1. Portanto, a sua diferença dividida em quaisquer r + 1
pontos é igual a zero. Então,
B(x0 , . . . , xr ; t) = 0 para t ≤ x0 .
(r−2) (r−2)
isto é, Pr (x) é uma parábola e Qt (x) é uma função linear por partes,
que é monotonicamente crescente. (veja Figura 3).
(r - 2)
Q (x)
t
(r - 2)
P (x)
r
Figura 3
(r−2) (r−2)
Podemos observar que a parábola Pr (x) não pode cruzar Qt (x) em
mais do que dois pontos, se ela é côncava, isto é, se seu coeficiente r!b/2 é não-
positivo. Consequentemente, r!b/2 > 0 e, portanto, b > 0. Mas, b é o coeficiente
de xr do polinômio interpoladorPr (x). De acordo com uma das propriedades de
diferenças divididas, b coincide com a diferença dividida da função interpolada
1.10 B-splines 55
r−1
(x − t)+ em x0 , . . . , xr . Em outras palavras,
b = B(x0 , . . . , xr ; t) > 0,
que é zero para todo t de (−∞, ∞), mas pelo menos um dos coeficientes {αi }
é diferente de zero. Vamos escolher um ponto t do intervalo(xm , xm+1 ). Para
este t, temos
f (t) = αm Bm,r−1 (t),
pois Bi,r−1 (t) = 0 para i > m. Desde que, pelo Teorema 1, Bm,r−1 (t) > 0,
a condição f (t) = 0 implica que αm = 0. Da mesma maneira, provamos que
m+N
αm+1 = 0, . . ., até chegarmos à conclusão de que todos os coeficientes {αi }i=m
são iguais a zero, o que é contradição com a hipótese de que αi é diferente de
zero. A afirmação está provada.
Agora, vamos construir uma nova base para o espaço das splines usando
B-splines. Para este propósito, precisaremos do seguinte lema.
r−1
Lema 6 Para toda escolha dos pontos ξ1 < · · · < ξr as funções (ξ1 − x) ,
r−1
. . ., (ξr − x) são linearmente independentes em (−∞, ∞).
que é zero para todo x ∈ (−∞, ∞), com pelo menos um ai diferente de zero.
Desde que f (x) é um polinômio algébrico em x, identicamente zero, suas deri-
vadas são também identicamente zero, isto é,
f (r−1) (x) = 0 ⇒ a1 .1 + · · · + ar .1 = 0
para todo t. Vamos escolher alguns pontos arbitrários ξ1 < · · · < ξr do intervalo
(xn , ∞) e introduzir as notações
r−1
pj (x) := (ξj − x) , j = 1, . . . , r.
funcional
r
X
L(p) := ck p(xk ).
k=1
r
A condição f (ξj ) = 0 implica que L(pj ) = 0, j = 1, . . . , r. Desde que {pj }1
forma uma base em πr−1 , então
qj (xk ) = δkj , k = 1, . . . , r.
Para q = qj , obtemos
r
X
0 = L(qj ) = ck qj (xk ) = cj
k=1
Teorema 19 Sejam a < xr+1 < · · · < xn < b pontos fixos. Tomemos outros
2r pontos arbitrários x1 < · · · < xr < a e b < xn+1 < · · · < xn+r . Sejam
Bi (t) := B(xi , . . . , xi+r ; t), i = 1, . . . , n. As B-splines B1 , . . . , Bn formam
uma base no espaço Sr−1 (xr+1 , . . . , xn ) no intervalo [a, b].
que é identicamente zero em [a, b], mas pelo menos um de seus coeficientes {αi }
é diferente de zero. Pela expressão de f podemos observar que
f (t) ≡ 0 em (−∞, x1 ),
58 Capı́tulo1. Aproximação de Funções
Além disso, pela exigência para f , f (t) ≡ 0 em [a, b]. Mas, f coincide com
um polinômio algébrico em (xr , xr+1 ). Pelo fato de que f (t) ≡ 0 em [a, xr+1 ],
concluı́mos que f (t) ≡ 0 no subintervalo inteiro [xr , xr+1 ]. Da mesma forma,
podemos obsevar que f (t) ≡ 0 também em [xn , xn+1 ]. Consequentemente, f ≡ 0
em [xr , xn+1 ]. Portanto, seu gráfico é como o da Figura 4.
x1 xr a b x n+1 x n+ r
Figura 4
0 para t > xr
½
f1 (t) = ,
f (t) para t ≤ xr
Levando em considereção o fato de que Bi (t) tem suporte finito, esta é uma
representação muito conveniente de f quando trabalhamos com computador
pois, para t fixo, a sline f (t) é de fato uma combinação linear de apenas r B-
splines consecutivas, aquelas que contêm t no seu suporte. Uma outra vantagem
da representação (3) é que existe um esquema simples para o cálculo do valor
de Bi em um ponto dado. Este esquema é baseado na seguinte relação de
recorrência.
r−2
Escolhemos f (x) = x − t e g(x) = (x − t)+ . Obviamente
r−1
f (x)g(x) = (x − t)+ para x ∈ (−∞, ∞)
e, portanto,
µ ¶
f (xi ) f (xi )
= 1+ g[xi+1 , . . . , xi+r ] − g[xi , . . . , xi+r−1 ]
xi+r − xi xi+r − xi
xi+r − t t − xi
= Bi+1,r−2 (t) + Bi,r−2 (t),
xi+r − xi xi+r − xi
60 Capı́tulo1. Aproximação de Funções
B00 (t)
ց
B01 (t)
ր ց
B10 (t) B02 (t)
ց ր ց
B11 (t) B03 (t)
ր ց ր
B20 (t) B12 (t)
ց ր ց
B21 (t) B13 (t)
ր ց ր
B30 (t) B22 (t)
ց ր
B31 (t)
ր
B40 (t)
A primeira coluna desta tabela é preenchida usando-se a definição de Bi,0 (t),
½ 1
para t ∈ [xi , xi+1 )
Bi,0 (t) = xi+1 −xi .
0 para t 6∈ [xi , xi+1 )
A quantidade
ρ(f, ϕ) := inf {ρ(f, ϕ) : ϕ ∈ Ωn }
ρ(f, g) := kf − gk.
62 Capı́tulo1. Aproximação de Funções
Não é dificil verificar que a distância ρ(f, g) assim definida realmente satisfaz às
propriedades listadas acima. Deixaremos essa verificação como exercı́cio.
Toda norma em F pode ser considerada como função de f , definida em F .
De fato,
kf k = kf − g + gk ≤ kf − gk + kgk
e, daı́ segue que kf k − kgk ≤ kf − gk. Analogamente, kgk − kf k ≤ kg − f k =
kf − gk. Consequentemente, |kf k − kgk| ≤ ρ(f, g). É claro que se ρ(f, g) → 0,
então kf k → kgk, e isto mostra que kf k é uma função contı́nua de f .
Consideraremos o espaço linear
Teorema 21 Toda norma em IRn é uma função contı́nua com relação às coor-
denadas do elemento.
ek = (0, . . . , 0, 1, 0, . . . , 0), k = 1, . . . , n,
os vetores base em IRn . Entao, todo vetor f = (f1 , . . . , fn ) de IRn pode ser
escrito da forma f = f1 e1 + · · · fn en e, consequentemente,
n
X n
X
| kf k − kgk | ≤ kf − gk = k (fi − gi )ei k ≤ |fi − gi |kei k.
i=1 i=1
kf k∞ := max |fi |,
1≤i≤n
kf k1 := |f1 | + · · · + |fn |,
à n !1/2
X
2
kf k2 := fi .
i=1
1.11 Melhor aproximação em espaços lineares normados 63
para todo f ∈ F .
obtemos
ν(f ) ≤ M kf k2 para todo f ∈ F.
O teorema está provado.
Formularemos uma consequência importante do teorema da equivalência das
normas.
64 Capı́tulo1. Aproximação de Funções
kf k∞ ≤ M r.
kgk ≤ kf (n) k ≤ r,
Consequentemente,
inf kf − ϕk = min kf − ϕk = kf − ϕf k
ϕ∈Sr ϕ∈Sr
kf − pk = kf − qk = En (f ) := inf {kf − ϕk : ϕ ∈ Ωn }
É fácil ver que (1.12.25) é realmente uma norma. Ela é chamada norma uniforme
(ou norma de Chebyshev). Daqui pra frente, denotaremos por C[a, b] o espaço
normado das funções contı́nuas em [a, b]. Como já sabemos, toda norma dá
origem a uma distância. A norma uniforme dá origem à distância uniforme
En (f ) ≤ λ := min λi .
0≤i≤n+1
Q
f(x) + λ
f(x) − λ
x0 ξ1 x1 ξk xn+1
Figura 5
onde ε = 1 ou ε = −1.
Isto significa que |f (x) − (P (x) − c)| < En (f ) em [a, b]. Consequentemente, o
polinômio P (x) − c aproxima f melhor do que P . Chegamos a uma contradição.
Agora, suponha que a diferença f (x) − P (x) tem no máximo m + 2 pontos
de alternância em [a, b], com m < n. Sejam {xi }m+1
0 esses pontos, i.e., a ≤ x0 <
· · · < xm+1 ≤ b e
En
f(x) - P(x)
xi-1 xi - 1
ξi xi xi ξ i+1
d
-En
Figura 6
é uma função contı́nua e atinge valores de sinais opostos nos pontos x̄i−1 e
xi (veja Figura 6). Essa conclusão vale para todo i = 1, 2 . . . , m + 1. Seja
ξ0 := a, ξm+2 := b. Consideraremos o comportamento da diferença f (x) −
P (x) no intervalo [ξi , ξi+1 ]. Pela escolha dos pontos ξi é claro que f (x) − P (x)
atinge o máximo de seu módulo En (f ) somente com sinal (−1)i ε em [ξi , ξi+1 ].
Consequentemente,
(−1)m+1 εδ
λ= , onde M := max |(x − ξ1 ) · · · (x − ξm+1 )|.
2M x∈[a,b]
70 Capı́tulo1. Aproximação de Funções
δ δ
−En (f ) + < (−1)i ε[f (x) − (P (x) + Q(x)] ≤ En (f ) −
2 2
para todo x ∈ [ξi , ξi+1 ], i = 0, . . . , m + 1. Desde que a união dos intervalos
[ξi , ξi+1 ] cobre [a, b], então
δ
kf − (P + Q)k ≤ En (f ) − < En (f ).
2
Chegamos a uma contradição da definição de En (f ). Consequentemente, m ≥ n
e a demonstração está completa.
A unicidade do polinômio de melhor aproximação segue facilmente do teo-
rema de Chebyshev.
kf − P k = kf − Qk = En (f ). (1.12.33)
P +Q 1
En (f ) ≤ kf − k = k(f − P ) + (f − Q)k
2 2
1 1
≤ kf − P k + kf − Qk = En (f ).
2 2
P (xi ) + Q(xi )
f (xi ) − = (−1)i εEn (f ) (ε = 1 ouε = −1).
2
1.12 Aproximação uniforme de funções por polinômios algébricos 71
Consequentemente,
¯ ¯
¯ f (xi ) − P (xi ) f (xi ) − Q(xi ) ¯
¯ + ¯ = En (f ). (1.12.34)
¯ 2 2 ¯
Mas,
|f (xi ) − P (xi )| ≤ En (f )
e
|f (xi ) − Q(xi )| ≤ En (f ),
Tn (x) = 2n−1 xn + · · · ,
Tn (ξk ) = (−1)n−k , k = 0, . . . , n,
72 Capı́tulo1. Aproximação de Funções
onde ξk = cos kπ
n .
Consequentemente, o polinômio
1
Tn (x) = Pn−1 (x) − Pn−1 (x)
2n−1
satisfaz às condições exigidas (1.12.35) nos pontos ξ0 , . . . , ξn . Então,
1
Pn−1 (x) = xn − Tn (x)
2n−1
é o polinômio de melhor aproximação uniforme de grau n−1 para xn em [−1, 1].
Bn (cf ; t) = cBn (f ; t)
Bn (f + g; t) = Bn (f ; t) + Bn (g; t).
74 Capı́tulo1. Aproximação de Funções
são positivos em (0, 1). Seque que se f (t) ≥ 0 para todo t ∈ [0, 1], então
Bn (f ; t) ≥ 0 para todo t ∈ [0, 1]. Essa propriedade é chamada positividade do
operador Bn (f ; t). Dessa propriedade seque a monotonicidade de Bn (f ; t), i.e.,
O seguinte lema dá uma representação para Bn (f ; t). Para esse propósito, de-
notemos por ∆k f a diferença finita de f nos pontos 0, 1/n, 2/n, · · · , k/n.
Lema 9
n
à !
X
k n
Bn (f ; t) = ∆ f tk .
k=0
k
Fazendo m = n − j, obtemos
n
n X
à !à !
X n−k n k
Bn (f ; t) := (−1)m−k f ( )tm .
n−m k n
k=0 m=k
Desde que à !à ! à !à !
n−k n n m
= ,
n−m k m k
invertendo a ordem da soma, obtemos
n
à !( m à ! )
X n X
m−k m k
Bn (f ; t) := (−1) f ( ) tm ,
m=0
m k m
k=0
Então,
¯ n · ¸ ¯
¯X k ¯
|f (t) − Bn (f ; t)| = ¯ f (t) − f ( ) ϕnk (t)¯
¯ ¯
¯ n ¯
k=0
n ¯ ¯
¯f (t) − f ( k )¯ ϕnk (t)
X ¯ ¯
≤ ¯ n ¯
k=0
n µ ¯ ¯¶
X ¯ k ¯¯
≤ ω f ; ¯t − ¯ ϕnk (t).
¯
n
k=0
76 Capı́tulo1. Aproximação de Funções
Escolhendo δ = √1 obtemos
n
3 1
|f (t) − Bn (f ; t)| ≤ ω(f ; √ ).
2 n
Já estamos prontos para dar a demonstração do teorema de Weierstrass para
um intervalo finito [a, b] arbitrário.
1.14 Polinômios ortogonais 77
para qualquer subintervalo [α, β] de [a, b]. Toda função µ(x) que satisfaz essa
propriedades é chamada função peso em [a, b]. O produto interno (f, g) de duas
funções funções f (x) e g(x) é definido por
Z b
(f, g) = µ(x)f (x)g(x) dx.
a
78 Capı́tulo1. Aproximação de Funções
É claro que estamos supondo que f e g são definidas em [a, b] e que a integral
acima existe.
a) P i ∈ πi , ∀i,
b) (Pi , Pi ) 6= 0, ∀i,
c) (Pi , Pj ) = 0 para i 6= j.
= ak (Pk , Pk ).
Portanto,
(f, Pk )
ak = .
(Pk , Pk )
Vale a pena mencionar também que as condições a), b) e c) implicam que Pn (x)
é um polinômio algébrico de grau exatamente n, isto é, Pn (x) é da forma
Q(x) = Pn (t)(x − ξ1 ) . . . (x − ξk ).
Por outro lado Q ∈ πn−1 pois k < n. Pela Propriedade 3, (Q, Pn ) = 0. Assim
temos uma contradição. Consequentemente, k ≥ n. Desde que Pn (x) muda de
sinal em ξi , i = 1, . . . , k, então ξ1 , . . . ξk são zeros de Pn (x). Mas, Pn ∈ πn .
Entao, de acordo com o teorema fundamental da álgebra, Pn (x) tem no máximo
n zeros reais em (a, b). Consequentemente, k é exatamente n, isto é, ξ1 , . . . , ξn
são todos os zeros de Pn (x), eles pertencem ao intervalo (a, b) e são distintos.
P0 (x), P1 (x), . . .
(5) xPn (x) = an−1 Pn−1 (x) + an Pn (x) + an+1 Pn+1 (x).
1.14 Polinômios ortogonais 81
(xPn , Pn−1 )
an−1 = ,
(Pn−1 , Pn−1 )
(xPn , Pn )
an = ,
(Pn , Pn )
onde a igualdade é possı́vel somente quando rn−1 (x) ≡ qn−1 (x), isto é, quando
Qn (x) ≡ Pn (x). A propriedade está provada.
Finalmente, esclarecemos a questão fundamental da existência e, eventual-
mente, da construção de sequências de polinômios ortogonais para um intervalo
[a, b] e uma função peso µ(x) dados. Sejam [a, b] um intervalo arbitrário e µ(x)
uma função peso qualquer em [a, b]. Vamos exigir que µ(x) satisfaça à condição
adicional Z b
µ(x)xk dx < ∞, k = 0, 1, . . . ,
a
caso o intervalo [a, b] seja infinito. Para construir uma sequência de polinômios
ortogonais, podemos executar o seguinte esquema (agir da seguinte maneira):
1. Escolhemos uma sequência qualquer de números α0 , α1 , . . ., todos dife-
rentes de zero. Eles serão os coeficientes de xn em Pn (x), respectivamente, para
n = 0, 1, . . . . Consequentemente, P0 (x) ≡ α0 .
2. Para n = 1, 2, . . ., construimos o polinômio
(6) (Pn , Pi ) = 0, i = 0, . . . n − 1.
Teorema 29 Para um intervalo [a, b], uma função peso µ(x) e um coeficiente
αn dados, existe um único polinômio da forma
1 n
para todo polinômio f ∈ πn−1 . De fato, denotando a função 2n n! (x2 − 1) por
ϕ(x) e integrando repetidamente por partes, obtemos
Z 1 Z 1 Z 1
(n)
Ln (x)f (x) dx = f (x)ϕ (x) dx = f (x) dϕ(n−1) (x)
−1 −1 −1
¯1 Z 1
= f (x)ϕ(n−1) (x) ¯ − f ′ (x)ϕ(n−1) (x) dx
¯
−1 −1
Esta última expressão é igual a zero pois f (n) (x) ≡ 0 e ϕ(n−k) (x) é zero nos
ponto x = ±1 para k = 1, . . . , n.
Os polinômios Ln (x) são chamados polinômios de Legendre.
O coeficiente 2n1n! é escolhido para que seja satisfeita a condição
Ln (1) = 1, n = 0, 1, 2, . . . .
84 Capı́tulo1. Aproximação de Funções
Para verificar que (1) é realmente uma norma em H, provaremos algumas pro-
priedades de produto interno.
Desigualdade de Cauchy-Schwartz: Para quaisquer dois elementos f e g do
espaço de Hilbert H, vale a desigualdade
p p
|(f, g)| ≤ (f, f ) (g, g),
com a igualdade sendo atingida se, e somente se, f e g são linearmente depen-
dentes.
o que implica em (2). A igualdade é atingida se, e somente se, [(f, g)]2 =
(f, f )(g, g). Mas, como já observamos, isto é verdade somente quando f e g são
linearmente dependentes.
Com a notação (1), podemos escrever (2) da forma
kf + gk ≤ kf k + kgk.
Daqui por diante, quando falarmos em espaço de Hilbert, vamos supor que ele
é normado e métrico pelo esquema descrito acima.
Sejam ϕ0 , ϕ1 , . . . , ϕn arbitrários, mas elementos fixos de H. Denotemos por
( n )
X
n+1
Ωn := ai ϕi : (a0 , . . . , an ) ∈ IR .
i=0
kf − ϕk2 = kf − p + p − ϕk2 = (f − p + δ, f − p + δ)
1.15 Aproximação em espaços de Hilbert 87
= kf − pk + 2(f − p, δ) + kδk2
≥ kf − pk2 .
kf − pk ≤ kf − ϕk para todo ϕ ∈ Ωn .
p = a0 ϕ0 + a1 ϕ1 + . . . + an ϕn .
.................................................................................
a0 (ϕ0 , ϕn ) + a1 (ϕ1 , ϕn ) + . . . + an (ϕn , ϕn ) = (f, ϕn )
que é um sistema linear de n + 1 equações com n + 1 incógnitas. Denotemos
por D(ϕ0 , . . . , ϕn ) o seu determinante,
Vamos supor que ϕ0 , . . . , ϕn seja um sitema ortogonal, isto é, (ϕi , ϕj ) = 0 para
i 6= j. Então, (4) reduz-se a forma
ak (ϕk , ϕk ) = (f, ϕk ) , k = 0, . . . , n,
de onde obtemos
(f, ϕk )
(5) ak = , k = 0, . . . , n.
(ϕk , ϕk )
Usando esta relação junto com o sitema (4) formamos um sistema homogênio de
n + 2 equações lineares com relação a (a0 , a1 , . . . , an , 1). Desde que este sistema
tem solução não-nula, seu determinante é igual a zero, isto é,
D(f, ϕ0 , . . . , ϕn )
(6) ε2n (f ) = .
D(ϕ0 , . . . , ϕn )
Observação. Por (6) e sabendo que D(g1 ) = (g1 , g1 ) > 0 para todo g1 6= 0,
segue por indução, que o determinante de Gram, D(g1 , . . . , gn ), é estritamente
positivo se os elementos g1 , . . . , gn são linearmente independentes.
Casos Particulares
I. Aproximações em L2 .
Seja [a, b] um dado intervalo, finito ou infinito. Seja µ(x) uma função peso in-
tegrável em [a, b]. Denotamos por L2 [a, b] o espaço de todas as funções definidas
em [a, b], para as quais
Z b
µ(x)f 2 (x) dx < ∞.
a
Não é difı́cil mostrar que o produto dado por esta definição satisfaz a todas as
exigências de produto interno. Assim, L2 [a, b] torna-se um espaço de Hilbert.
A norma
nZ b o1/2
kf k := µ(x)f 2 (x) dx
a
é chamada média quadrática. Ela gera a distância média quadrática
(Z )1/2
b
2
ρ(f, g) := µ(x) [f (x) − g(x)] dx .
a
90 Capı́tulo1. Aproximação de Funções
para o qual
" n
#2
Z b Z b
2
X
µ(x) [f (x) − p(x)] dx = min µ(x) f (x) − ak ϕk (x) dx.
a {ak } a k=0
Vamos supor que sabemos, por razões teóricas, que a função f é de uma
determinada forma que depende de n parâmetros a1 , . . . , an . Por exemplo, f
n
X n
Y Xn
pode ser da forma ak xk−1 , sen ak x ou eak x . Podemos calcular os
k=1 k=1 k=1
valores de f com uma determinada precisão em um número finito de pontos.
Além disso, o cálculo do valor de f em um ponto às vezes é um processo caro.
O objetivo é recuperar aproximadamente os parâmetros a1 , . . . , an com a maior
precisão possı́vel com base na informação
l(x)
}
di
x1 xi xm
Figura 7
l(x) = Ax + B.
di := fi − (Axi + B) , i = 1, . . . , m.
max |di |
1≤i≤m
dificil porque o problema é não-linear p que max |di | é uma função não-linear
i
nas variáveis A e B.
2) Escolher A e B de modo que
m
X
|di |
i=1
seja o mı́nimo possı́vel. As objeções contra o critério 1) valem com a mesma força
neste caso. Estas objeções foram consideradas seriamente no passado quando
não existiam ferramentas para cálculos rápidos. Talvez, por isto, foi escolhido
um critério que leva a um sistema linear para a obtenção dos parâmetros.
3) Escolher A e B de modo que
n
X
S(A, B) := d2i .
i=1
e as condições necessárias para o mı́nimo, que neste caso também são suficientes,
levam ao sistema
m
∂S X
=0 ⇒ [fi − (Ax + B)]xi = 0,
∂A i=1
m
∂S X
=0 ⇒ [fi − (Ax + B)] = 0.
∂B i=1
Esta abordagem para determinar as incógnitas da função pela tabela dos da-
dos é chamada método dos mı́nimos quadrados. Vamos representá-lo de forma
mais geral. Seja {F (x, a1 , . . . , an )} uma famı́lia de funções , descritas pelos
parâmetros ai ∈ Ii , i = 1, . . . , n. Sejam f1 , . . . , fm os valores de uma função
desta famı́lia nos pontos x1 , . . . , xm .
onde {µi }m
i são números positivos dados a priori, chamados “pesos”.
1.15 Aproximação em espaços de Hilbert 93
p(x) = a0 xn + a1 xn−1 + . . . + an
Para evitar a solução deste sistema, podemos escolher, a priori, uma base apro-
priada no espaço de polinômios algébricos πn . Por exemplo, se procurássemos
um polinômio p da forma
onde os polinômios {Pk (x)} formam um sistema ortogonal no conjunto dos pon-
tos x1 , . . . xm com pesos {µi }, o sistema acima reduzir-se-ia ao sistema diagonal
n
X n
X
bk µi Pk2 (xi ) = µi Pk (xi )f (xi ),
i=1 i=1
Diferenciação e Integração
Numéricas
onde
ω(x) = (x − x0 ) . . . (x − xn ),
96 Capı́tulo2. Diferenciação e Integração Numéricas
g(x + h) − g(x)
g ′ (x) = lim
h→0 h
f [x0 , . . . , xn , x + h] − f [x0 , . . . , xn , x]
= lim
h→0 x+h−x
= lim f [x0 , . . . , xn , x + h, x]
h→0
= f [x0 , . . . , xn , x, x],
pois, como já vimos (Teorema 6.5) a diferença dividida é uma função contı́nua
de seus argumentos se f é suficientemente suave. Então,
d
f [x0 , . . . , xn , x] = f [x0 , . . . , xn , x, x].
dx
Portanto, de (1), obtemos
Usando a relação
f (k) (ξ)
f [y0 , . . . , yk ] = ,
k!
podemos escrever E(f ) como
Mn+2 Mn+1
|E(f )| ≤ |ω(x)| + |ω ′ (x)|,
(n + 2)! (n + 1)!
Em alguns casos, a expressão para o erro (2) pode ser simplificada significati-
vamente, por exemplo quando o ponto x coincide com algum dos nós x0 , . . . , xn ,
ou quando ω ′ (x) = 0. No primeiro caso para x = xk , temos ω(xk ) = 0 e
n
Y
ω ′ (xk ) = (xk − xi ).
i=0,i6=k
f (n+2) (ξ)
(4) E(f ) = ω(x).
(n + 2)!
Temos ω ′ (x) = 0 quando, por exemplo, os nós são simétricos com relação ao
ponto x, isto é, quando
n−1
x − xi = xn−i − x, i = 0, . . . , .
2
2 2
Então, (t − xi )(t − xn−i ) = (t − x) − (x − xi ) e, portanto,
(n−1)/2 h i
2 2
Y
ω(t) = (t − x) − (x − xi ) .
i=0
Desde que
d h 2
i¯
2 ¯
¯
(t − x) − (x − xi ) ¯ = 2(t − x)¯ = 0,
¯
dt t=x t=x
(n−1)/2
f (n+2) (ξ) Y 2
E(f ) = [−(x − xi ) ].
(n + 2)! i=0
f (a + h) − f (a)
(5) f ′ (a) ≈ f [a, a + h] = .
h
Neste caso, o ponto a é nó e, por esta razão, aplicaremos a fórmula (3) para
achar a estimativa do erro. Obtemos
f ′′ (η)
(6) E(f ) = h.
2
A fórmula (5) tem interpretação geométrica simples. A derivada f ′ (a), que
é igual ao coeficiente angular da tangente a f (x) no ponto com abscissa a, é
substituida pelo coeficiente angular da secante pelos pontos com abscissas a e
a + h (veja Figura 8).
a a+ h
Figura 8
L1 (f ; t) = f (a − h) + f [a − h, a + h](t − a + h).
f (a + h) − f (a − h)
(7) f ′ (a) ≈ .
2h
A interpretação geométrica de (7) é representada na Figura 9. O coeficiente
angular da tangente a f (x) no ponto a é aproximado pelo coeficiente angular
da secante pelos pontos a − h e a + h.
2.1 Diferenciação numérica 99
a-h a a+ h
Figura 9
f ′′′ (ξ) 2
(8) E(f ) = n h .
6
Observemos que o erro (8) é muito menor, para h pequeno, do que o erro (6),
enquanto que as correspondentes fórmulas (5) e (7) são “igualmente comple-
xas”: as duas usam dois valores da função f (x). Para caracterizar a ordem do
erro, como de outras quantidades na análise numérica, usaremos os sı́mbolos O
(”o”maiúsculo) e o (”o”minúsculo). Dizemos que ϕ(h) é O(ψ(h)) para h → 0,
ϕ(h)
se existe constante K, tal que ψ(h) ≤ K quando h → 0. Dizemos que ϕ(h) é
ϕ(h)
o(ψ(h)) para h → 0 se ψ(h) → 0 quando h → 0. Então, de acordo com essas de-
finições, a fórmula (5) tem erro de ordem O(h), enquanto o erro de (7) é O(h2 ).
Mais adiante, vamos perceber que a fórmula (7) é usada frequentemente, especi-
almente na análise de métodos numéricos para solução de equações diferenciais.
Infelizmente, ela pode ser aplicada somente para aproximação da derivada nos
pontos internos, x1 , . . . xn−1 , de uma tabela de valores, f (x0 ), . . . , f (xn ), da
função f (x). Para os pontos limites, x0 e xn , podemos usar (5). Mas, esta
última tem erro O(h). O ideal seria uma fórmula para o cálculo aproximado de
f ′ (x0 ) e f ′ (xn ) com erro da ordem O(h2 ). Agora, vamos obter tal fórmula. Para
este fim, vamos utilizar mais um nó para aumentar a precisão da aproximação.
Seja n = 2. Escolhemos os nós x0 = a, x1 = a + h e x2 = a + 2h. Aproxi-
memos a derivada de f (x) para x = a. Neste caso, temos
Daquı́ obtemos
Podemos observar que a fórmula (5) pode ser obtida por (11) para n = 1 e
x = x0 .
Pelas fórmulas do erro para a diferenciação numérica até agora obtidas, vê-
se que o erro diminue quando o passo h diminue. Desta forma, poderı́amos
obter a derivada de f ′ (a) com qualquer precisão se pudéssemos calcular f (x)
em pontos x suficientemente perto do ponto a. Acontece que na prática isto
2.1 Diferenciação numérica 101
não é verdade. Ou seja, durante o uso prático de qualquer uma das fórmulas
obtidas, quando diminuimos h o erro também diminue no inı́cio mas, depois,
volta a crescer. A razão para este efeito é que as fórmulas para diferenciação
numérica são “instáveis”. Expliquemos detalhadamente este fenômeno.
Vamos supor que aproximamos f ′ (a) pela fórmula (7),
f (a + h) − f (a − h)
f ′ (a) ≈ ,
2h
e que o computador que usamos representa os números com precisao 10−8 .
Portanto, ao invés dos valores exatos de f (a + h) e de f (a − h) trabalhamos com
os números
f˜(a + h) = f (a + h) + ε1 ,
f˜(a − h) = f (a − h) + ε2 ,
onde
f˜(a + h) − f˜(a − h) f (a + h) − f (a − h) ε1 − ε2
= + .
2h 2h 2h
De acordo com (8),
f (a + h) − f (a − h)
= f ′ (a) + E,
2h
onde
(13) |E| ≤ M h2 ,
˜ ˜
para alguma constante M . Consequentemente, a expressão f (a+h)− 2h
f (a−h)
é
′
aproximada por f (a) com erro E + (ε1 − ε2 )/2h. Este erro tem ordem ϕ(h) =
−8
10−8
M h2 + 2.10 ′
2h , por(12) e (13). Como ϕ (h) = 2M h − h2 , ϕ(h) atinge o seu
mı́nimo para h = h0 , onde h0 é o zero de ϕ′ (h),
r r
3 1 1 3 5
h0 = = 3 .
2.108 M 10 M
Desta forma, ϕ(h) decresce quando h decresce até h0 mas volta a crescer en-
quanto o passo h continua decrescendo. Por isto, a aplicação prática exige, em
cada caso particular, a determinação do valor crı́tico h0 do passo e o uso somente
de passos h para os quais h > h0 .
102 Capı́tulo2. Diferenciação e Integração Numéricas
Agora, vamos obter uma fórmula para aproximar f ′′ (a) baseada nos valores
f (a − h), f (a) e f (a + h), supondo que f tem quarta derivada contı́nua em
[a − h, a + h].
Método 1. Denotemos por L2 (f ; x) o polinômio interpolador de Lagrange
da função f (x) com nós a − h, a, a + h. De acordo com a a fórmula de Newton
e
f (x) = L2 (f ; x) + f [a − h, a, a + h, x](x − a + h)(x − a)(x − a − h).
Assim podemos obter uma aproximação para f ′′ (a) da seguinte maneira:
f ′′ (a) ≈ L′′2 (f ; a) = 2f [a − h, a, a + h]
f (a − h) − 2f (a) + f (a + h)
= .
h2
O erro desta aproximação será E(f ),
′′
= {f [a − h, a, a + h, x](x − a + h)(x − a)(x − a − h)} |x=a
αf (a − h) + βf (a) + γf (a + h)
2.1 Diferenciação numérica 103
seja igual a f ′′ (a) + O(hk ), onde o erro O(hk ) é o menor possı́vel, isto é, a
potência k é a maior possı́vel. Multiplicando as equações (14) por α, β e γ,
respectivamente, e somando-as, obtemos
−α + γ = 0.
f (IV ) (ξ) 2
E(f ) = − h .
12
104 Capı́tulo2. Diferenciação e Integração Numéricas
onde
b n
x − xi
Z Y
(3) ck = I(lk ) = dx, k = 0, . . . , n.
a i=0,i6=k xk − xi
Agora, pela relação entre diferença dividida e derivada, segue que existe um
ponto ξ ∈ [a, b], para o qual
b
f (n+1) (ξ)
Z
(5) R(f ) = ω(x) dx.
(n + 1)! a
Rb
Se ω(x) muda de sinal somente uma vez em [a, b] e a ω(x) dx = 0, então a
expressão (4) também pode ser simplificada. Neste caso, usamos a relação de
recorrência
f [x0 , . . . , xn , x] − f [x0 , . . . , xn , xn+1 ]
f [x0 , . . . , xn , xn+1 , x] = ,
x − xn+1
para obter
a a+ b b
2
Figura 10
f ′′ (ξ) b
Z
R(f ) = (x − a)(x − b) dx.
2 a
a b
Figura 11
Seja n = 2. Temos
onde ξ1 e ξ2 são pontos de (a, b). Mas p ∈ π2 . Consequentemente, p′′ (t) é cons-
tante para todo t. Logo, p′′ (ξ1 ) = p′′ (ξ2 ). Portanto, multiplicando a segunda
expressão por 21 e adicionando à primeira, obtemos
µ ¶
1 a+b b−a
I(p) + I(p) = p (b − a) + [p(a) + p(b)].
2 2 4
Desde que o polinômio p(x) interpola f (x) nos pontos a, a+b
2 e b, então a última
igualdade implica em
· µ ¶ ¸
b−a a+b
(13) I(p) = f (a) + 4f + f (b) .
6 2
Obtemos, então, a fórmula
Z b · µ ¶ ¸
b−a a+b
(14) f (x) dx ≈ f (a) + 4f + f (b) .
a 6 2
110 Capı́tulo2. Diferenciação e Integração Numéricas
a = x0 xi xi+1 b = xm
Figura 12
e
5
(b − a) (IV )
RS (f ) = − f (ξ), ξ ∈ [a, b].
2880m4
112 Capı́tulo2. Diferenciação e Integração Numéricas
onde µ(x) é uma função peso dada, definida em [a, b], a ≤ x1 < · · · < xn ≤ b,
n
e {Ak }1 são números reais. Já observamos que para qualquer escolha dos nós
n n
{xk }1 , podemos determinar coeficientes {Ak }1 tais que a fórmula de quadratura
(1) obtida é exata para todos os polinômios algébricos de grau n − 1. Para este
propósito, basta construir a fórmula de quadratura interpolatória da seguinte
forma
Z b Z b
µ(x)f (x) dx ≈ µ(x)Ln−1 (f ; x) dx
a a
n Z b n
X Y x − xi
= µ(x) dx f (xk ).
a xk − xi
k=1 i=1,i6=k
n
Será que existem alguns nós especiais {x∗k }1 , para os quais a correspondente
fórmula de quadratura é exata para polinômios de grau maior do que n − 1?
Já encontramos alguns exemplos anteriormente: a fórmula de Simpson com três
nós é exata para todos os polinômios não somente de grau dois mas de grau
três também. Aqui, encontraremos uma nova e importante caracterı́stica das
fórmulas de quadratura.
Qual o maior GPA que uma fórmula de quadratura com n nós pode ter?
Para quais nós o maior GPA é atingido? Estas são as questões que discutiremos
aqui.
Não é difı́cil ver que o maior grau de precisão algébrica da fórmula (1) é maior
n
ou igual a n − 1. De fato, para qualquer escolha dos pontos {xk }1 podemos
construir a correspondente fórmula de quadratura interpolatória com nós em
n
{xk }1 , a qual, por definição , é exata para todos os polinômios de πn−1 , isto é,
ela tem GPA pelo menos n − 1. Agora, mostremos, através de contra-exemplo,
que não existe fórmula de quadratura da forma (1) com GPA maior do que
2n − 1. De fato, se existisse tal fórmula, ela seria exata para o polinômio
2 2
ω 2 (x) = (x − x1 ) . . . (x − xn ) ,
2.3 Fórmulas de quadratura de Gauss 113
Teorema 34 Para todo número natural n existe uma única fórmula de quadra-
n
tura da forma (1) com GPA= 2n − 1. Os nós {xk }1 desta fórmula são os zeros
do polinômio de grau n, que é ortogonal em [a, b], com relação à função peso
µ(x), a todos os polinômios algébricos de grau n − 1.
Z b
= µ(x)r(x) dx.
a
Usamos o fato de que ω(x) é ortogonal à q(x). Desde que a fórmula (1) é
interpolatória, ela é exata para r(x). Consequentemente,
Z b Xn
µ(x)r(x) dx = Ak r(xk ).
a k=1
pode ser usada para o cálculo dos coeficientes {Ak } da fórmula de quadratura
de Gauss. Forneceremos uma outra maneira para se calcular Ak que não usa
integração.
Seja P0 (x), P1 (x), . . . , Pn (x) uma sequência de polinômios ortogonais em
[a, b] com relação à função peso µ(x). Suponha que os polinômios são orto-
normais, ou seja,
Z b
µ(x)Pk2 (x) dx = 1 para todo k.
a
Além disso, vamos supor que o coeficiente αk do termo de maior grau de Pk (x),
k = 0, 1, . . ., é positivo. Sejam x1 , . . . , xn os zeros de Pn (x). Então,
Pn (x) = αn (x − x1 ) . . . (x − xn ) = αn xn + · · · , αn > 0
e
Z b Z b
D[xn−1 ] = αn−1 µ(x)xn−1 Pn−1 (x) dx = 2
µ(x)Pn−1 (x) dx = 1.
a a
2 2
f (x) = H2n−1 (x) + f [x1 , x1 , . . . , xn , xn , x](x − x1 ) . . . (x − xn ) ,
′
H2n−1 (xk ) = f (xk ), H2n−1 (xk ) = fk′ (xk ), k = 1, . . . , n.
de quadratura (1) seja exata para os polinômios 1, x, . . . , x2n+m−1 , isto é, que
(1) tenha grau de precisão algébrica 2n + m − 1.
Vamos introduzir as notações
σ(x) := (x − t1 ) . . . (x − tm ),
ω(x) := (x − x1 ) . . . (x − xn ).
Isto significa que ω(x) é ortogonal a Q, com relação à função peso µ(x)σ(x) em
[a, b]. A parte necessária do teorema está demonstrada.
Suponhamos, agora, que ω é ortogonal a todo polinômio de πn−1 com relação
à função peso µ(x)σ(x). Vamos construir a fórmula de quadratura interpolatória
(1) com nós x1 , . . . , xn que são as raı́zes de ω. Mostremos que (1) é exata
para todo f ∈ π2n+m−1 . De fato, seja f ∈ π2n+m−1 . Portanto, f pode ser
representado da forma
f (x) = ω(x)σ(x)Q(x) + r(x),
com Q ∈ πn−1 e r ∈ πn+m−1 . Usando a condição
Z b
µ(x) ω(x) σ(x) Q(x) dx = 0
a
e o fato de (1) ser exata para r, obtemos
Z b Z b Z b
µ(x)f (x) dx = µ(x) ω(x) σ(x) Q(x) dx + µ(x)r(x) dx
a a a
m
X n
X
= Bi r(ti ) + Ak r(xk )
i=1 k=1
Xm Xn
= Bi f (ti ) + Ak f (xk ),
i=1 k=1
118 Capı́tulo2. Diferenciação e Integração Numéricas
Corolário 5 Se σ(x) ≥ 0 em [a, b], então existe uma única fórmula de quadra-
tura da forma (1) com grau de precisão algébrica igual a 2n + m − 1.
Consequentemente, c0 = · · · = cn−1 = 0 e
Esta integral é igual a zero para todo f ∈ πn−1 pois Pn+1 é ortogonal a todos
′
os polinômios de πn . Consequentemente, Pn+1 é ortogonal a todo os polinômio
2
de πn com relação à função peso (1 − x ). Portanto,
′
Pn+1 (x) = c(x − x1 ) . . . (x − xn )
120 Capı́tulo2. Diferenciação e Integração Numéricas
Para x = −1 obtemos
Solução Numérica de
Equações
satisfaz à desigualdade
|x| ≤ R,
onde R é a única raiz positiva da equação
y
f
y=1
R x
Figura 13
Pela observação acima, ϕ tem uma única raiz positiva que é o ponto R. A figura
14 mostra o gráfico de ϕ.
R x
Figura 14
e, consequentemente,
f (x) = a0 xn + . . . + ak xn−k + . . . + an
xn−k+1 − 1
= a0 xn − A
x−1
n−k+1
x 1
> a0 xn − A ( > 0)
x−1 x−1
n−k
x
= (a0 xk−1 (x − 1) − A)
x−1
xn−k
> (a0 (x − 1)k − A) (x > x − 1).
x−1
as raı́zes positivas). De fato, sejam −x1 < . . . < −xj < 0 as raı́zes negativas de
f (x) = 0. Introduzimos o polinômio
g(t) := f (−t).
É claro que 0 < xj < . . . < x1 serão as raı́zes positivas da equação g(t) = 0.
Por um dos métodos conhecidos podemos achar um limite superior ρ para suas
raı́zes positivas,
xj < . . . < x1 < ρ.
Portanto, −ρ < −x1 < . . . < −xj < 0 e, consequentemente, −ρ será um limite
inferior para as raı́zes negativas de f . Analogamente, pelas mudanças
1 1
x= e x=− ,
t t
obtemos um limite inferior para as raı́zes positivas e um limite superior para as
raı́zes negativas para as correspondentes equações algébricas f (x) = 0.
Agora, tratemos de um problema mais difı́cil: determinar o número de raı́zes
reais de uma equação algébrica que pertencem ao intervalo [a, b]. O seguinte
lema, que vale não somente para polinômios mas para funções suficientemente
suaves, tem papel importante no cálculo de limites para este número.
Lema 10 Seja f uma função que tem derivadas contı́nuas até ordem k em uma
vizinhança U do ponto c. Sejam
f (c + ε)f ′ (c + ε) > 0,
f (c − ε)f ′ (c − ε) < 0.
Analogamente,
f (c + h) f (k) (c + θh) h
= .
f ′ (c + h) f (k) (c + θ1 h) k
Mas, f (k) (t) 6= 0. Desde que f (k) (t) é uma função contı́nua, existe uma vizi-
nhança U1 de c tal que f (k) (t) 6= 0 para todo t ∈ U1 . Além disso, sign f (k) (t) =
sign f (k) (c) para todo t ∈ U1 . Em particular, para h suficientemente pequeno,
temos
sinal f (k) (c + θh) = sinal f (k) (c + θ1 h).
Consequentemente,
f (c + h)
sinal = sinal h.
f ′ (c + h)
Assim, para h = ε e h = −ε obtemos a afirmação do lema.
O teorema a seguir é devido a Sturm e fornece o número exato de raı́zes
de uma equação algébrica em um intervalo [a, b]. Antes de formulá-lo intro-
duziremos algumas notações. Seja α0 , α1 , . . . , αn uma sequência de números
reais. Por S − (α0 , . . . , αn ) denotaremos o número das mudanças fortes de sinal
na sequência α0 , α1 , . . . , αn . Em outras palavras, este é o número de pares da
forma (+, −) ou (−, +) na sequência obtida por α0 , α1 , . . . , αn substituindo-se
todo número positivo αi por ” + ”, todo número negativo por −” e descartando-
se os zeros da sequência. Por exemplo,
S − (−5, 6, 4, 0, −1, 2) = 3.
S + (−2, 0, −1, 4) = 3.
Seja f (x) um polinômio algébrico arbitrário de grau exatamente n, isto é, f (x) =
a0 xn + . . . + an e a0 6= 0. Aplicando o algorı́tmo de Euclides para achar o maior
fator comum entre f (x) e f ′ (x), obtemos
........... . ..................................
............ . ....................................
Ri−1 (c) = Ri−2 (c) = . . . = R1 (c) = f ′ (c) = f (c) = 0. Assim, c seria raiz
múltipla de f , o que leva a uma contradição.
3) Rk (x) 6= 0 em [a, b].
Isto é consequência de f (x) não ter raı́zes múltiplas em [a, b].
A sequência f (x), f ′ (x), R1 (x), . . . , Rk (x) é chamada sequência de Sturm.
Vamos denotar por S − (x) o número das mudanças fortes de sinal na sequência
de Sturm, isto é, S − (x) := S − (f (x), f ′ (x), R1 (x), . . . , Rk (x)).
para todo x desta vizinhança. Isto mostra que quando x passa por um zero de
uma função intermediária da sequência de Sturm o número de mudanças S − (x)
não muda. Assim, mostramos que S − (x) diminui de um somente quando x
passa por um zero de f (x). Consequentemente, o número de mudanças de sinal
que se perde quando x percorre o intervalo [a, b] é exatamente igual ao número
de raı́zes de f em [a, b]. A demonstração está completa.
Vale a pena observar que a demonstração do Teorema de Sturm é baseada
somente nas propriedades 1), 2) e 3) da sequência
que satisfaz às exigências 1), 2) e 3). Tal sequência é chamada sequência de
Sturm. Então, se (2) é uma sequência de Sturm e f (x) não tem zeros múltiplos
em [a, b], o número de zeros de f em [a, b] é exatamente igual a S − (a) − S − (b).
Aplicando esta observação mostraremos que, para qualquer polinômio f (x)
independente de ter ou não zeros múltiplos em [a, b], o número S − (a) − S − (b) é
exatamente igual ao número de pontos distintos de [a, b] onde f (x) se anula. De
fato, se f (x) não tem zeros múltiplos, esta é a afirmação do Teorema de Sturm.
Seja f com zeros múltiplos em [a, b]. Então, f e f ′ tem um fator comum Rk (x),
que não é constante e também é fator de R1 (x), . . . , Rk (x). Por isto, as funções
f (x) f ′ (x) Rk−1 (x) Rk (x)
(3) , , ... , ,
Rk (x) Rk (x) Rk (x) Rk (x)
são definidas em [a, b] e satisfazem as exigências 1), 2) e 3). Então, (3) é uma
sequência de Sturm para f (x) := Rfk(x)
(x) e, pelo teorema de Sturm,
µ ¶ µ ¶
− f (a) − f (b)
S := S ,...,1 − S ,...,1
Rk (a) Rk (b)
³ ´
−S + f (b), f ′ (b), f ′′ (b), . . . , f (n) (b)
−k,
Analogamente,
Desta forma, ³ ´
S − f (c − ε), f ′ (c − ε), . . . , f (k) (c − ε) = k
e ³ ´
S − f (c + ε), f ′ (c + ε), . . . , f (k) (c + ε) = 0.
Então, se x passar por um zero de f , o número V (x) diminuirá exatamente da
multiplicidade deste zero.
Vamos supor, agora, que c é um zero de multiplicidade k da derivada de
alguma ordem, mas não é um zero de f . Sejam
f (i−1) (c) 6= 0, f (i) (c) = f (i+1) (c) = . . . = f (i+k−1) (c) = 0, f (i+k) (c) 6= 0
e
³ ´
R2 := S − f (i−1) (c + ε), f (i) (c + ε), . . . , f (i+k) (c + ε)
³ ´
= S − f (i−1) (c + ε), f (i+k) (c + ε) .
3.1 Limites para as raı́zes 131
Desde que f (i−1) e f (i+k) são funções contı́nuas, f (i−1) (t) e f (i+k) (t) não se
anulam em uma vizinhança U de c. Logo,
³ ´
S − f (i−1) (t), f (i+k) (t) = δ = const
para todo t de U, sendo δ = 1 ou δ = 0, isto é, entre essas derivadas pode houver
ou não mudanças de sinal. Investigaremos quatro casos dependendo do valor de
δ e da paridade de k.
Sejam δ = 1 e k um número par. Então,
R1 = k + 1, R2 = 1. Logo, V (c − ε) − V (c + ε) = k (par).
R1 = k, R2 = 1, V (c − ε) − V (c + ε) = k − 1 (par).
Quando δ = 0 e k é par:
R1 = k, R2 = 0, V (c − ε) − V (c + ε) = k (par).
Quando δ = 0 e k é ı́mpar:
R1 = k + 1, R2 = 0, V (c − ε) − V (c + ε) = k + 1 (par).
Z(f ; (a + ε, b − ε)) = V (a + ε) − V (b − ε)
e ³ ´
lim V (b − ε) = S + f (b), f ′ (b), . . . , f (n) (b) .
ε→0
O teorema está demonstrado.
Desde que
³ ´ ³ ´
S − f (x), f ′ (x), . . . , f (n) (x) ≤ S + f (x), f ′ (x), . . . , f (n) (x) ,
temos
³ ´ ³ ´
Z(f ; (a, b)) ≤ S − f (a), f ′ (a), . . . , f (n) (a) − S − f (b), f ′ (b), . . . , f (n) (b) ,
132 Capı́tulo3. Solução Numérica de Equações
f (x) = a0 xn + a1 xn−1 + . . . + an , a0 6= 0, an 6= 0.
Então,
Z(f ; (0, ∞)) = S − (a0 , a1 , . . . , an ) − k,
onde k é zero ou um número par. Em outras palavras, o número de raı́zes
positivas da equação f (x) = 0 é igual ao número de mudanças fortes de sinal da
sequência de seus coeficientes ou menor que este número por um número par.
f (M ), f ′ (M ), . . . , f (n) (M )
3.2 Método da contração 133
x = ϕ(x).
(1) xn = ϕ(xn−1 ), n = 1, 2, . . .
Nosso objetivo é construir uma sequência {xn } que converge para a raiz ξ da
equação x = ϕ(x). É claro que a regra (1) não gera tal sequência para qualquer
134 Capı́tulo3. Solução Numérica de Equações
função ϕ. Entretanto, existe uma classe de equações, isto é, de funções ϕ, para a
qual a simples regra de iteração (1) de fato gera a sequência {xn } que converge
para a raiz ξ. Vamos discutir, agora, quais exigências sobre a função ϕ garantem
a convergência. Primeiramente, temos que ter certeza de que a sequência estar
bem definida. Isto significa que cada ponto da sequência tem que pertencer ao
domı́nio [a, b] da função ϕ. Esta exigência vai ser obviamente satisfeita se
De fato, seja ϕ uma função contı́nua que satisfaz à Condição 2, isto é, ϕ é
contı́nua de [a, b] em [a, b]. Se a = ϕ(a), a é um ponto fixo. Analogamente, se
b = ϕ(b), então b é um ponto fixo. Vamos supor que a 6= ϕ(a) e b 6= ϕ(b). Desde
que ϕ é uma transformação de [a, b] em [a, b], então ϕ(a) ∈ [a, b], ϕ(b) ∈ [a, b] e,
portanto,
a < ϕ(a), ϕ(b) < b.
Definimos a função r(x) := x − ϕ(x). Ela é contı́nua em [a, b] e r(a) :=
a − ϕ(a) < 0, r(b) := b − ϕ(b) > 0. Consequentemente existe um ponto ξ
de [a, b] tal que r(ξ) = 0, isto é, ξ = ϕ(ξ). Vamos formular este resultado
explicitamente.
Demonstração: Pelo Lema 2 ϕ tem pelo menos um ponto fixo. Suponha que
tem mais de um. Sejam ξ1 = ϕ(ξ1 ) e ξ2 = ϕ(ξ2 ), ξ1 , ξ2 ∈ [a, b]. Então, para
ξ1 6= ξ2
Desde que x0 ∈ [a, b] e ξ ∈ [a, b], então |x0 − ξ| < b − a. A desigualdade (3)
está demonstrada e, com isso, o teorema.
Toda transformação ϕ que satisfaz à condição de Lipschitz com constante
menor do que 1 é chamada contração. Neste caso, a distância entre ϕ(x) e ϕ(y)
é estritamente menor do que a distância entre x e y, isto é, ϕ “contrai” as
distâncias. Pelo Teorema do valor médio, se ϕ é uma função diferenciável em
[a, b] e |ϕ′ (x)| ≤ q < 1 para todo x ∈ [a, b], então ϕ é uma contração. De fato,
pelo Teorema do valor médio
Corolário 6 Seja ξ uma raiz da equação x = ϕ(x). Suponha que ϕ tem de-
rivada contı́nua na vizinhança U de ξ e |ϕ′ (ξ)| < 1. Então, para qualquer
aproximação inicial x0 suficientemente boa, o processo iterativo gerado por ϕ é
convergente. Além disso, existem constantes c > 0 e 0 < q < 1, tais que
Demonstração: Desde que ϕ′ (t) é uma função contı́nua em U e |ϕ′ (ξ)| < 1,
exitem q < 1 e ε > 0, tais que
y x = y
ρ(x)
ρ(ξ)
ρ( x )
1
ρ( x )
0
x0 x1 x2 ξ x
Figura 15
Sejam [a, b] um dado intervalo finito e f (x) uma função duas vezes diferen-
ciavel nesse intervalo satisfazendo às condições :
a) f (a) f (b) < 0,
b) f ′ (x) f ′′ (x) 6= 0 para todo x de [a, b].
Não é difı́cil observar que essas condições garantem a existência e a unicidade
da raiz ξ da equação f (x) = 0 em [a, b].
De fato, a primeira condição garante a existência de um ponto ξ ∈ (a, b) tal
que f (ξ) = 0. A segunda condição implica que f ′ (x) e f ′′ (x) não têm zeros
em [a, b]. Consequentemente, f ′ (x) e f ′′ (x) não trocam de sinal em [a, b]. Isto
mostra que f (x) é uma função estritamente monótona e convexa se f ′′ (x) > 0
ou côncava se f ′′ (x) < 0. Mas, toda função monótona pode cruzar a reta real x
em no máximo um ponto. A unicidade de ξ está deonstrada.
O método das cordas é um processo iterativo para a construção de uma
sequência de aproximações consecutivas x0 , x1 , . . . da raiz ξ da equação f (x) = 0
da seguinte maneira:
Construimos uma reta l0 que passa pelos pontos (a, f (a)) e (b, f (b)), isto
é, a corda da curva do gráfico da função f em [a, b] (veja Figura 16). A reta
cruza o eixo x em algum ponto x0 . Esta é a aproximação inicial. É claro que
x0 está à esquerda de ξ se f é convexa e à direita de ξ se f é côncava. No
exemplo da figura x0 < ξ. Depois, achamos a próxima aproximação x1 como
o ponto de cruzamento do eixo x com a corda l1 que liga (x0 , f (x0 )) e (b, f (b))
(ou (x0 , f (x0 )) e (a, f (a)) se f ′′ (x) < 0). Analogamente, o processo continua.
3.2 Método da contração 139
l0
l1 f
a x0 x1 b
ξ
Figura 16
O ponto xn+1 é obtido como o ponto de cruzamento do eixo x com a corda ln+1
que liga os pontos (xn , f (xn )) e (b, f (b)) (ou (a, f (a))). O método é ilustrado
geometricamente na Figura 16.
Vamos achar uma expressão analı́tica para xn+1 em termos da aproximação
anterior xn . Consideremos o caso em que f ′′ (x) > 0, ilustrado na Figura 16. A
equação da reta ln+1 é
x−b x − xn
ln+1 = f (xn ) + f (b) = f (xn ) + f [xn , b](x − xn ).
xn − b b − xn
f (xn )
xn+1 = xn − ,
f [xn , b]
e, portanto,
f (xn )
(4) xn+1 = xn − (b − xn ).
f (b) − f (xn )
f (α)
α=α− (b − α), isto é, f (α) = 0.
f (b) − f (α)
Consequentemente, α = ξ e a convergência de xn para ξ está demonstrada.
Entretanto, vamos usar o Corolário 4 da teoria geral do método da contração
pois ele nós dá uma estimativa para a velocidade da convergência. Então, (4)
implica que o método das cordas é um processo iterativo gerado pela função
f (x)
ϕ(x) = x − (b − x).
f (b) − f (x)
f ′′ (η1 )
f (b) = f (ξ) + f ′ (ξ)(b − ξ) + (b − ξ)2 no numerador
2
e por
f (b) = f (ξ) + f ′ (η2 )(b − ξ) no denominador,
f ′′ (η1 )(b − ξ)
ϕ′ (ξ) = .
2f ′ (η2 )
Sejam
M := max |f ′′ (t)| e m := min |f ′ (t)|.
t∈[a,b] t∈[a,b]
′
Como, por hipótese, |f (t)| > 0 em [a, b], temos m > 0. Logo,
M
|ϕ′ (ξ)| ≤ |b − ξ|
2m
e, portanto, |ϕ′ (ξ)| pode ser menor do que qualquer q < 1 escolhido a priori,
desde que b − ξ seja suficientemente pequeno, isto é, se o intervalo [a, b] for
3.2 Método da contração 141
|xn − ξ| ≤ const. q n .
Assim, obtemos
f (xn ) f (xn )
xn+1 = xn − = xn − (xn−1 − xn ).
f [xn−1 , xn ] f (xn−1 ) − f (xn )
142 Capı́tulo3. Solução Numérica de Equações
ξ
a x 3 x 2
x 1
b= x 0
f l2 l1
Figura 17
Teorema 43 Seja {xn }∞n=0 a sequência das iterações pelo método das secantes.
Suponha que as aproximações iniciais x0 e x1 satisfaçam à condição
0 1
|x0 − ξ| ≤ Cq r e |x1 − ξ| ≤ Cq r ,
√
onde 0 < q < 1 e C é uma constante tal que M C < 2m e r = (1 + 5)/2.
Então,
n
(5) |xn − ξ| ≤ Cq r para todo n.
f ′′ (η)
|f ′ (η1 )| |xn+1 − ξ| = | | |xn+1 − xn−1 | |xn+1 − xn |.
2
Assim, chegamos em
M
|xn+1 − ξ| ≤ |xn+1 − xn−1 | |xn+1 − xn |
2m
M
≤ |xn−1 − ξ| |xn − ξ| (ξ < xn+1 < xn < xn−1 ).
2m
Mas, de acordo com a hipótese de indução,
n−1
|xn−1 − ξ| ≤ Cq r ,
n
|xn − ξ| ≤ Cq r .
Consequentemente,
M n−1 n MC n−1 n
|xn+1 − ξ| ≤ Cq r Cq r = Cq r +r
2m 2m
n−1 MC
< Cq r (1+r)
( < 1 por hipótese).
2m
Mas, r é a raiz positiva da equação r2 − r − 1 = 0. Logo, r + 1 = r2 e,
portanto, rn−1 (1 + r) = rn+1 . A desigualdade acima toma a forma
n+1
|xn+1 − ξ| ≤ Cq r ,
o que é que tinhamos que demonstrar. Com isto, a demonstração está completa.
√
Notemos que r = (1 + 5)/2 ≈ 1, 618. Consequentemente, o método das
secantes converge muito mais rapidamente do que o método das cordas. Além
disso, a fórmula para o cálculo de xn+1 não é mais complexa do que a corres-
pondente fórmula para o método das cordas. Os dois métodos exigem o cálculo
de apenas um valor de f em cada passo.
Conheceremos um outro método que converge mais rapidamente do que o
método da secantes.
ξ
a x x
2 1
x 0= b
Figura 18
Assim, obtemos
f (xn )
xn+1 = xn − .
f ′ (xn )
Esta é a conhecida fórmula de Newton para o cálculo aproximado da raiz da
equação f (x) = 0.
Para mostrar a convergência do método usaremos o Teorema 5. É claro que
xn+1 é obtido pela fórmula xn+1 = ϕ(xn ) , onde
f (x)
ϕ(x) = x − .
f ′ (x)
Para ϕ′ (ξ) obtemos
2
f ′ (ξ) − f (ξ)f ′′ (ξ)
ϕ′ (ξ) = 1 − = 0 (f (ξ) = 0).
f ′2 (ξ)
3.2 Método da contração 145
Podemos verificar que, no caso geral, ϕ′′ (ξ) 6= 0. Consequentemente, pelo Te-
orema 5, o processso iterativo gerado por ϕ, isto é, o método de Newton, é
convergente e tem ordem de convergência 2 para toda aproximação inicial x0
suficientemente boa. Em outras palavras, existem constantes C e q ∈ (0, 1) tais
que
n
|xn − ξ| ≤ Cq 2 para todo n.
Então, a convergência do método de Newton é muito boa. Para melhor ilustrar
esta convergência, vamos supor que |ϕ′′ (t)| ≤ 2 em uma vizinhança U da raiz ξ.
Seja ek := |xk − ξ|. Então, para todo x0 de U, a próxima iteração x1 , construida
pelo método de Newton, satisfaz
ϕ′′ (η)
= |ϕ′ (ξ)(x0 − ξ) + (x0 − ξ)2 | ( expandindo ϕ(x0 ) por Taylor)
2
|ϕ′′ (η)| 2
= e0 (ϕ′ (ξ) = 0),
2
e, consequentemente, e1 ≤ e20 . Analogamente, e2 ≤ e21 , . . .. Se, por exemplo,
x0 aproxima ξ com precisão 0.01, então x1 aproxima ξ com precisão e1 = e20 =
0.0001, x2 é aproximação de ξ com precisão 0.00000001, . . .. Observamos que, a
cada iteração, o número de dı́gitos exatos é duas vezes maior que o da anterior.
A alta velocidade de convergência do método de Newton é uma vantagem
essencial que o faz o mais usado. É claro que ele tem desvantagens também.
Por exemplo, o método exige uma aproximação inicial suficientemente boa. Isto
significa que é preciso muito trabalho para localizar bem a raiz ξ antes de aplicar
o método de Newton. Outro ponto fraco é a necessidade de se calcular a primeira
derivada de f em cada passo. Se f é dada experimentalmente, isto é, se os valores
de f podem ser calculados a cada passo, mas através de um experimento, então
o cálculo da derivada de f pode causar dificuldades.
O método de Newton é extremamente conveniente para a solução aproxi-
mada de equações algébricas. Neste caso, os cálculos de f (xn ) e f ′ (xn ), ne-
cessários para aplicar a fórmula para xn+1 , podem ser organizados efetivamente
da seguinte maneira. Seja
f (x) = a0 xm + a1 xm−1 + . . . + am .
através do algoritmo:
b0 := a0
para k = 1, . . . , m daça:
bk = bk−1 z + ak
e, obviamente, f (z) = bm . Observemos, agora, que, para qualquer z dado, existe
um polinômio g(x) de grau m − 1, tal que
f (xn )
1) xn+1 = xn − , n = 0, 1, . . . ,
f ′ (xn )
3.2 Método da contração 147
f (tn )
2) tn+1 = tn − (xn − tn ).
f (xn ) − f (tn )
t0 t1 t2
x x2 x1 x0
Figura 19
Solução de Sistemas de
Equações
fi (x1 , . . . , xn ) = 0, i = 1, . . . , n,
com n incógnitas x1 , . . . , xn . Comecemos com o caso mais simples, isto é, quando
fi (x1 , . . . , xn ) são funções lineares com relação a x1 , . . . , xn . Neste caso, escreve-
se o sistema acima da forma
a11 x1 + . . . + a1n xn = b1
a21 x1 + . . . + a2n xn = b2
(1) .......................................
an1 x1 + . . . + ann xn = bn ,
onde {aij } e {bi } são números dados. Vamos supor que são números reais. Se de-
notarmos por A a matriz {aij }ni,j=1 dos coeficientes e por b̄ o vetor (b1 , . . . , bn )T ,
o sistema (1) pode ser escrito na forma matricial como
Ax̄ = b̄,
Rx̄ = c̄,
que tem a mesma solução x̄ e onde R é uma matriz triangular superior, isto é,
A transformação dos coeficientes (A, b̄) para (R, c̄) é feita passo a passo, subtraindo-
se alguma linha da matriz multiplicada por algum número, de outra linha. O
algoritmo é o seguinte:
Se a11 6= 0, então, da i-ésima linha da matriz
(k−1)
aik (k−1) (k−1) (k−1)
− (k−1)
(akk , . . . , akn , bk ).
akk
Consequentemente,
(k−1)
(k) (k−1) aik (k−1)
(1) aij = aij − a
(k−1) kj
, j = k, k + 1, . . . , n.
akk
152 Capı́tulo4. Solução de Sistemas de Equações
que é equivalente ao sistema inicial Ax̄ = b̄, isto é, eles têm a mesma solução.
A matriz A(n−1) do novo sistema é triangular superior. Vamos denotar por R
a matriz A(n−1) e por c̄ o vetor b̄(n−1) . Deste modo, escrevendo (2) de forma
mais detalhada, temos
Este elemento asl faz o papel de pivô, isto é, da s-ésima equação determinamos
xl e eliminamos esta incógnita de todas as outras equações. Na prática, depois
de achar s e l, trocamos a s-ésima e a primeira linhas e a l-ésima e a primeira
colunas da matriz (A, b̄) e continuamos como no método comum: determinamos
4.1 Método de Gauss 153
(A(1) , b̄(1) ) pelas fórmulas acima. No segundo passo achamos o maior elemento
(1)
de {|aij |}ni,j=2 , etc.
(k−1)
É claro que se algum dos pivôs akk escolhidos desta maneira for igual
a zero, então det A = 0. Consequentemente, o método de Gauss com pivotea-
mento pode ser aplicado à toda matriz regular A, isto é, matriz com determi-
nante não-nulo.
Algumas vezes, aplicamos pivoteamento parcial. Neste caso, para o pivô é
escolhido o elemento com o maior módulo da primeira coluna da correspondente
submatriz: n o
(k−1) (k−1) (k−1)
|asl | := max |akk |, |ak+1,k |, . . . , |ank | .
(k−1)
É claro que se, neste caso, |asl | = 0, então det A = 0.
Deste modo, resolvendo o sistema Ax̄ = b̄ pelo método de Gauss, obtemos como
resultado adicional o determinante de A.
Agora, achemos os elementos de A−1 . Seja
W x̄ = c̄
(1) A = LR,
onde L é triangular inferior, isto é, lij = 0 para todo i < j e R é triangular
superior, isto é, rij = 0 para todo j < i. De fato, se A pode ser representada
desta maneira, a solução do sistema
Ax̄ = LRx̄ = b̄ ,
Exemplo: Ã = ẼA,
A = a21
a22 a23 , Ã = a31
a32 ˜
a33 , I = 0
0 1.
a31 a32 a33 a21 a22 a23 0 1 0
(A, b̄) → (A(1) , b̄(1) ) → (A(2) , b̄(2) ) → . . . → (A(n−1) , b̄(n−1) ) = (R, c̄),
↓ ↓
Finalmente, obtemos
LR = A .
(1) (n−1)
Usamos aqui que os elementos principais a11 , a22 , . . . , ann são não-nulos.
A demonstração no caso geral é mais complicada e nós a omitiremos.
Consideremos, agora, uma classe de matrizes para as quais o método de
Gauss sem pivoteamento pode ser executado, isto é, para as quais os elemen-
(1) (n−1)
tos principais a11 , a22 , . . . , ann são não-nulos. Pela demonstração fornecida
segue que tais matrizes podem ser decompostas em produto de duas matrizes
triangulares.
(A−1 ȳ, ȳ) = (x̄, ȳ) = (x̄, Ax̄) = (Ax̄, x̄) > 0,
Aij
αij = ,
det A
onde Aij é o elemento da matriz adjunta correspondente ao elemento aij . Em
particular
∆11
(2) α11 = .
det A
Mas, ∆11 é o menor principal
a22 ... a2n
.. ..
det . . ,
an2 ... ann
Daqui,
¡ 2 2
¢1/2
(3) αkk = akk − αk1 − . . . − αkk−1 .
Pelas relações
obtemos
k−1
X
akj − αki αji
i=1
(4) αjk = , j = k + 1, . . . , n.
αkk
É claro que este método só pode ser aplicado quando as expressões das quais
calculamos a raiz quadrada em (3), são não-negativas. Mostremos que, sob essas
condições para A, são positivas. Vamos denotar por Ak a submatriz cetral
a11 . . . a1k
. ..
Ak = .. . .
ak1 ... akk
160 Capı́tulo4. Solução de Sistemas de Equações
Desde que
α11 ... 0 α11 ... αk1
.. .. .. ..
Ak = . . . . ,
αk1 ... αkk 0 ... αkk
então
2 2
(5) det Ak = α11 . . . αkk .
Desde que det Ak > 0, pois todos os menores principais de A são positivos,
2 2 2
então α11 . . . αkk > 0 para todo k = 1, 2, . . . , n. Mas, α11 = a11 > 0. Então,
2 2 2
α11 α22 >0 ⇒ α22 > 0,
2 2 2 2
α11 α22 α33 >0 ⇒ α33 > 0,
.. .. ..
. . .
2 2 2 2
α11 α22 . . . αnn >0 ⇒ αnn > 0.
2
Notemos que aqui αkk é exatamente a quantidade que está sob o radical em (3).
Consequentemente, αkk é um número real positivo.
Denotemos por O a matriz nula cujos elementos são 0 e, por I, a matriz identi-
dade. Com essas operações An torna-se um espaço linear. Notemos que em An
pode ser introduzida a operação multiplicação de matriz por matriz:
1) kAk ≥ 0; kAk = 0 ⇐⇒ A = O.
2) kλAk = |λ| kAk para todo número λ.
3) kA + Bk ≤ kAk + kBk.
4) kABk ≤ kAk kBk.
Seja, por exemplo, Aēk 6= 0̄. Então, Aξ¯ 6= 0̄ para ξ¯ := ēk /kēk k. Mas, kξk
¯ = 1 e,
portanto,
kAk ≥ kAξk ¯ > 0,
= kAk + kBk.
Definição 17 Dizemos que a norma vetorial kx̄k e a norma matricial ν(A) são
compatı́veis, se
kAx̄k ≤ ν(A)kx̄k para todo x̄ ∈ IRn e para toda A ∈ An .
Podem existir muitas normas matriciais que são compatı́veis com uma dada
norma vetorial. A menor de todas essas normas é chamada subordinada à norma
vetorial, isto é, ν(A) é subordinadaa k · k se
ν(A) ≤ µ(A)
para toda A ∈ An e para qualquer outra norma µ(A) que é compatı́vel com k · k.
É verdadeira a seguinte
Proposição 1 Seja k·k uma norma arbitrária dada. Então, a norma matricial
definida em An pela igualdade
kAk := sup kAx̄k
kx̄k=1
Demonstração. Seja ν(·) uma outra norma arbitrária que é compatı́vel com
a norma vetorial k · k. Então,
kAk = sup kAx̄k = kAx̄0 k (para algum x̄0 com norma 1)
kx̄k=1
n
X
kx̄k1 := |xi | (norma um),
i=1
( n ) 12
X
kx̄k2 := x2i (norma Euclidiana).
i=1
164 Capı́tulo4. Solução de Sistemas de Equações
1
Esta desigualdade e a obtida ateriormente mostram que kAk2 = λ 2 .
4.3 Normas de matrizes. Convergência de série matricial 165
(3) a0 I + a1 A + a2 A2 + a3 A3 + . . .
Sm (A) := a0 I + a1 A + . . . + am Am , m = 0, 1, . . . .
(4) a0 + a1 t + a2 t2 + . . . .
A → C −1 AC
Além disso, podemos observar que se a série matricial (3) para A é convergente,
ela também é convergente para C −1 AC e vice versa. De fato,
e, portanto,
(j) (j−1)
1 (j) p (λ) p (λ)
p (λ) = N λ+ N 1.
j! N +1 j! (j − 1)!
Esta é exatamente a fórmula para o cálculo do elemento pN +1 (B) baseada na
relação
pN +1 (B) = pN (B) B + c I
e na hipótese da indução .
Em particular, para p(t) = Sm (t), temos:
′ (ν−1)
Sm (λ) Sm (λ)
Sm (λ) ...
1! (ν−1)!
(ν−2)
Sm (λ)
0 Sm (λ) . . .
(ν−2)!
Sm (B) = .
.. .. .. ..
. . . .
0 0 ... Sm (λ)
168 Capı́tulo4. Solução de Sistemas de Equações
(5) I + A + A2 + . . .
(6) 1 + t + t2 + . . .
ser igual a 1. Mais precisamente, a série (6) é convergente somente para |t| < 1.
Forneceremos mais uma consequência do Teorema 2.
Seja a progressão geométrica matrical (5) convergente. Pelo Corolário 3, |λi | < 1
para todo autovalor λi de A. Mas se |λ| < 1, então λm → 0. Portanto, B m → O
4.3 Normas de matrizes. Convergência de série matricial 169
kB m k ≤ kBkm → 0 para m → ∞.
I + B + B2 + . . .
é convergente. Então, pelo Teorema 2 (ou pelo Corolário 3), |µ| < 1 para todo
autovalor µ de B. Mas os autovalores {µi } de B estão relacionados a {λi } pela
igualdade
λi
µi = , i = 1, . . . , m.
kAk + ε
Consequentemente,
¯ ¯
¯ λi ¯
¯ kAk + ε ¯ < 1 ⇒ |λi | < kAk + ε ⇒ |λi | ≤ kAk .
¯ ¯
De fato, kAk < 1 implica |λ| < 1 para todo autovalor de A. Basta aplicar o
Corolário 3.
(I − A)−1 = I + A + A2 + . . . .
(I − A)(I + A + . . . + Am ) = I − Am+1 ,
(I − A) S(A) = I,
onde
S(A) = I + A + A2 + . . . .
construı́mos a sequência {x̄k } de pontos do IRn , que converge para a solução x̄.
Consideremos alguns métodos iterativos básicos para a solução de sistemas
lineares.
4.4 Métodos iterativos para solução de sistemas lineares 171
x̄ = x̄ − C{Ax̄ − b̄}
para alguma aproximação inicial x̄0 . A fórmula acima pode ser escrita da forma
¯
x̄k+1 = (E − CA)x̄k + C b̄ =: B x̄k + d.
Demonstração. Temos
¯
= B k+1 x̄0 + (B k + B k−1 + . . . + I)d.
Corolário 10 Se kBk < 1 para alguma norma k.k, então, para qualquer apro-
ximação inicial x̄0 , o processo iterativo é convergente.
de onde segue
kx̄k − x̄k ≤ kBkk kx̄0 − x̄k.
Neste caso, o sistema Ax̄ = b̄ pode ser colocado da seguinte forma: pela i-ésima
equação detereminamos xi :
1
= δij − aij
aii
4.4 Métodos iterativos para solução de sistemas lineares 173
e, consequentemente,
n
X
kBk∞ = max |bij |
1≤i≤n
j=1
n
X aij
= max |δij − |
1≤i≤n
j=1
aii
n
1 X
= max |aij |.
1≤i≤n |aii |
j=1,j6=i
Isto mostra que a condição kBk∞ < 1 pode ser escrita como
n
X
|aij | < |aii |, i = 1, . . . , n .
j=1,j6=i
De fato, esta é a condição para que A seja uma matriz diagonalmente dominante.
Análogamente, a condição
n
X
kBk1 := max |bij | < 1
1≤j≤n
i=1
reduz-se a
n ¯ ¯
X ¯ aij ¯
¯ ¯ < 1, j = 1, . . . , n.
¯ aii ¯
i6=j
i−1 n
(k+1)
X aij (k+1)
X aij (k) bi
xi =− xj − xj + , i = 1, . . . , n.
j=1
aii a
j=i+1 ii
aii
U x̄ = −V x̄ + b̄
det[λU + V ] = 0,
Denotemos por
aij
cij = − ,
aii
bi
di = ,
aii Pn n
j6=i |aij | X
µ = max = max |cij |.
1≤i≤n |aii | 1≤i≤n
j=1,j6=i
≤ µkx̄k − x̄k∞ ≤ · · · ≤
Xi−1 ¯ ¯ n ¯ ¯
¯ (k+1) X ¯ (k)
≤ max |cij | ¯xj − xj ¯ + |cij | ¯xj − xj ¯
¯ ¯
i
j=1 j=i+1
Portanto,
γi0
kx̄ − x̄k+1 k∞ ≤ kx̄ − x̄k k∞
1 − βi0
≤ νkx̄ − x̄k k∞ ≤ · · · ≤
um dado sistema linear. Vamos supor que A é uma matriz simétrica e positiva
definida. Vamos introduzir o funcional
= ¯ x̄) − (Aξ,
(Ax̄, x̄) − 2(Aξ, ¯ ξ)
¯ + 2(Aξ,
¯ ξ)
¯
= ¯ ξ)
(Aξ, ¯ − (Aξ,
¯ x̄) + (Ax̄, x̄) − (Aξ,
¯ x̄)
o que significa que ξ¯ é solução do sistema linear Ax̄ = b̄. A afirmação está
demonstrada.
A relação aqui descrita é usada para resolvermos aproximadamente o sistema
(1), minimizando (2). Um dos métodos para minimização de (2) é o método da
máxima descida. Neste método, a partir de uma aproximação x̄k , obtemos a
próxima, x̄k+1 , de modo que f (x̄) diminui o máximo possı́vel. Cada aproximação
é obtida da anterior através da fórmula
onde c̄k tem a direção da maior diminuição de f (x̄) no ponto x̄k , e αk é escolhido
de modo a obtermos essa diminuição. Em outras palavras, c̄k é escolhido pela
condição ¯ ¯
¯ d ¯ ¯
¯ [f (x̄k + αc̄)]¯¯ ¯ → max,
¯ dα α=0
¯
e, para c̄ = c̄k , procuramos αk como solução da equação
d
f (x̄k + αc̄) = 0.
dα
Temos
= (x̄k , Ax̄k ) + 2α(x̄k , Ac̄) + α2 (c̄, Ac̄) − 2(b, x̄k ) − 2α(b̄, c̄)
a igualdade sendo atingida quando c̄ e r̄k são co-lineares, isto é, quando c̄ =
const. r̄k . Consequentemente, a direção da máxima descida do funcional f é
dada pela direção do vetor ck := r̄k = Ax̄k − b̄. Vamos determinar o valor αk
de α, para o qual f tem valor mı́nimo na direção c̄k . Temos
Portanto,
d
f (x̄k + αc̄k ) = 2α(Ar̄k , r̄k ) + 2(r̄k , r̄k ) = 0.
dα
Achando a solução αk da equação acima, obtemos
kr̄k k23 (r̄k , r̄k )
αk = − =− .
(Ar̄k , r̄k ) (Ar̄k , r̄k )
Consequentemente, a fórmula para o cálculo da próxima aproximação toma a
forma final:
(r̄k , r̄k )
x̄k+1 = x̄k − r̄k .
(Ar̄k , r̄k )
Desde que a função f (x̄) tem um único ponto de mı́nimo local, então, para
qualquer aproximação inicial, o método é convergente.
4.6 Solução de sistemas de equações não-lineares 179
fi (x1 , . . . , xn ) = 0, i = 1, . . . , n,
xi = ϕi (x1 , . . . , xn ), i = 1, . . . , n,
x̄k+1 = ϕ̄(x̄k ), k = 0, 1, . . . ,
para alguma aproximação inicial x̄0 = (x01 , . . . , x0n ). De forma mais de talhada
as fórmulas são :
(k+1) (k)
(1) xi = ϕi (x1 , . . . , x(k)
n ), i = 1, . . . , n.
... . .....................
(k+1) (k+1)
x(k+1)
n = ϕn (x1 , . . . , xn−1 , x(k)
n ).
Teorema 50 Se
n
X
max Mij < 1,
1≤i≤n
j=1
então x̄k converge para ξ¯ para todo x̄0 ∈ Sr , com a velocidade da progressão
geométrica.
¯
kϕ̄i (x̄) − ξk ¯
= kϕ̄i (x̄) − ϕ̄i (ξ)k
∞ ∞ = max |ϕi (x1 , . . . , xn ) − ϕi (ξ1 , . . . , ξn )|
1≤i≤n
¯ ¯
¯ n ¯
¯X ∂ϕi (ηj ) ¯
= max ¯¯ (xj − ξj )¯¯ (pela fórmula de Taylor)
1≤i≤n ¯
j=1
∂xj ¯
n ¯ ¯
¯ ∂ϕi (ηj ) ¯
¯
X
≤ kx̄ − ξk∞ max ¯ ∂xj ¯ ,
¯ ¯
1≤i≤n
j=1
¯ Assim,
onde η̄ = (η1 , . . . , ηn ) é um ponto do segmento de reta que liga x̄ a ξ.
η̄ ∈ Sr , pois ξ¯ e x̄ pertencem a Sr . Consequentemente,
n
¯ ¯ ¯ ,
X
kϕ̄i (x̄) − ξk ∞ ≤ kx̄ − ξk∞ max Mij = qkx̄ − ξk ∞
1≤i≤n
j=1
¯
kx̄k+1 − ξk ¯ k+1 ¯ .
∞ ≤ kx̄k − ξk∞ ≤ q kx̄0 − ξk∞
f (xk )
xk+1 = xk − .
f ′ (xk )
Esta é a fórmula de Newton.
4.6 Solução de sistemas de equações não-lineares 181
(1) F (x̄) = 0,
f1 (x1 , . . . , xn ) = 0
...................... ... .
fn (x1 , . . . , xn ) = 0.
∂ 2 fi
Seja ξ¯ = (ξ1 , . . . , ξn ) a solução de (1) e sejam ∂xj ∂xm contı́nuas em uma vizi-
¯ Pela fórmula de Taylor, temos
nhança de ξ.
n
(k)
X ∂fi (x̄k ) (k)
fi (x1 , . . . , xn ) ≈ fi (x1 , . . . , x(k)
n )+ (xj − xj ).
j=1
∂xj
2
(b) kF (x̄) − F (ȳ) − J(ȳ)(x̄ − ȳ)k ≤ c2 kx̄ − ȳk , x̄, ȳ ∈ Sr .
¯
F (ξ) − F (x̄k ) − J(x̄k )(ξ¯ − x̄k )
Mas, F (x̄k ) + J(x̄k )(x̄k+1 − x̄k ) = 0, de acordo com a definição de x̄k+1 . Con-
sequentemente,
¯ 2.
¯ − F (x̄k ) − J(x̄k )(ξ¯ − x̄k )k ≤ c2 kx̄k − ξk
kF (ξ)
Então,
¯ 2.
¯ ≤ c2 kx̄k − ξk
kJ(x̄k )(x̄k+1 − ξ)k
Multiplicando ambos os lados por kJ −1 (x̄k )k, obtemos
¯ 2.
¯ ≤ c2 kJ −1 (x̄k )k kx̄k − ξk
kJ −1 (x̄k )k kJ(x̄k )(x̄k+1 − ξ)k
¯
k(x̄k+1 − ξ)k ¯2
¯ ≤ c2 c1 kx̄k − ξk
≤ kJ −1 (x̄k )k · kJ(x̄k )(x̄k+1 − ξ)k
¯2.
¯ ≤ c kx̄k−1 − ξk
kx̄k − ξk
4.7 Número de condição 183
Desta forma,
¯
ckx̄k − ξk ¯2
≤ c2 kx̄k−1 − ξk
¯ 2
= [ckx̄k−1 − ξk]
k
¯ 4 ≤ . . . ≤ [ckx̄0 − ξk]
≤ [ckx̄k−2 − ξk] ¯ 2 .
Portanto,
¯ ≤ 1 k
¯ 2 ,
kx̄k − ξk [ckx̄0 − ξk]
c
k
isto é, o método de Newton é convergente com velocidade q 2 , onde q < 1 para
toda boa aproximação inicial. O teorema está demonstrado.
Aqui, ∆ é uma matriz e ε̄ e δ̄ são vetores. Considerando que Ax̄ = b̄, por (2),
obtemos
Aε̄ + ∆x̄ + ∆ε̄ = δ̄
e, assim,
ε̄ = A−1 (δ̄ − ∆x̄ − ∆ε̄).
Portanto,
Supondo que kA−1 k k∆k < 1, isto é, que os erros dos elementos de A são
suficientemente pequenos, obtemos
kA−1 k kδ̄k + kA−1 k k∆k kx̄k
kε̄k ≤ .
1 − kA−1 k k∆k
Quando A é dada precisamente ou, equivalentemente, quando ∆ = 0, temos
Teorema 52 Seja a norma matricial k·k compatı́vel com a norma vetorial k·k.
Então, a desigualdade
kx̄k
≤ kAx̄k ≤ kAk kx̄k
kA−1 k
vale para toda matriz regular A e todo vetor x̄.
Vamos investigar agora a influência das pertubações dos dados sobre a solução,
em duas situações tı́picas.
Seja a solução ξ¯ do sistema Ax̄ = b̄ obtida por um método numérico de
aproximação. Substituimos x̄ por ξ¯ no lado esquerdo do sistema. Obtemos Aξ. ¯
¯ ¯
Seja Aξ próximo a b̄. A pergunta é se ξ está próximo a x̄. Parece natural que
se δ̄ := Aξ¯ − b̄ é pequeno, ε̄ := ξ¯ − x̄ será pequeno também. Vamos ver agora se
temos razão para uma tal afirmação.
Temos
δ̄ = Aξ¯ − b̄ = Aξ¯ − Ax̄ = A(ξ¯ − x̄) = Aε̄.
Logo, ε̄ = A−1 δ̄. Desde que (A−1 )−1 = A, então Lema 1 implica na desigualdade
kδ̄k
(4) ≤ kA−1 δ̄k = kε̄k ≤ kA−1 k kδ̄k.
kAk
Analogamente,
kb̄k
(5) ≤ kx̄k = kA−1 b̄k ≤ kA−1 k kb̄k.
kAk
Como consequência de (4) e (5), obtemos o seguinte limite para o erro relativo:
Vamos fornecer um limite inferior melhor para cond (A) através dos auto-
valores de A. Para este propósito, vamos denotar por λ1 , . . . , λn os autovalores
de A, arranjados em ordem crescente de seus módulos,
|λ1 | ≤ . . . ≤ |λn |.
1 1
Assim, |λn | ≤ ... ≤ |λ1 | são os módulos dos autovalores de A−1 e, portanto,
|λn |
(7) cond (A) = kA−1 k kAk ≥ .
|λ1 |
Em particular quando A é uma matriz simétrica, isto é, quando A = AT , temos
kAk2 = |λn | e kA−1 k2 = |λ11 | . Então,
|λn |
(8) cond (A) = .
|λ1 |
Portanto, o condicionamento das matrizes simétricas depende da largura de seu
spectrum, isto é, do quociente do maior e do menor autovalores.
Vamos considerar mais um caso particular onde aparece o número de condição
da matriz A. Ao invéz de resolver o sistema Ax̄ = b̄, resolvemos Âξ¯ = b̄ onde
 = A + ∆. Determinemos um limite para a diferença entrex̄ e ξ.¯ Temos
Assim, obtemos
x̄ − ξ¯ = A−1 ∆ξ¯
e, desta forma,
Teorema 53 A igualdade
½ ¾
1 kA − Bk
= min : B é singular
cond (A) kAk
vale para qualquer norma e para toda matriz regular A.
kx̄k
≥ ( pelo Lema 1).
kA−1 k
Agora, (8) é consequência da última desigualdade e de kx̄k > 0.
A idéia da maioria dos métodos numéricos para solução de sistemas lineares
é a seguinte: transformar a matriz A em uma matriz C com estrutura especı́fica
(triangular, banda, simétrica) e depois resolver o sistema que corresponde a C.
Algumas vezes, essas transformações podem levar em um aumento do número
de condição de A. Assim, a matriz A de bem condicionada pode se tornar mal
condicionada.
Vamos ver o que acontece, por exemplo, quando transfomamos uma matriz
em matriz simétrica. Multipliquemos os dois lados da equação
Ax̄ = b̄
Mas, uma matriz tem número de condição 1 se, e somente se, ela é múltipla
da matriz identidade. Portanto, em geral, quando A 6= I, cond (A) > 1 e (9)
implica que quando transfomamos a matriz em simétrica, o número de condição
de A cresce. Isto mostra que a simetrização pode estragar o condicionamento
de A.
Capı́tulo 5
Cálculo de Autovalores de
Matrizes
Ax̄ = λx̄
tem solução não-nula x̄. Essas soluções não-nulas são chamadas autovetores de
A. É claro que toda matriz A de dimensão n × n tem exatamente n autovalores,
que são as raı́zes da equação algébrica
onde
n
X
σ1 = akk ,
k=1
¯ ¯
X ¯ aii aik ¯¯
σ2 = ¯
¯a ,
i<k ki akk ¯
190 Capı́tulo5. Cálculo de Autovalores de Matrizes
σn = det A.
P = C −1 AC,
onde C é uma matriz regular. Desde que as matrizes similhantes têm as mesmas
equações caracterı́sticas, então
1 0 ... 0
0 1 ... 0
.. .. ..
. . ··· .
Mk =
mk−1,1
,
mk−1,2 ... mk−1,n
.. .. ..
. . ··· .
0 0 ... 1
onde
1
mk−1,k−1 =
ak,k−1
ak,i
mk−1,i = − , i 6= k − 1.
ak,k−1
192 Capı́tulo5. Cálculo de Autovalores de Matrizes
Vamos denotar a matriz obtida por B. De acordo com o que já foi dito, B =
AMk e as k-ésima, . . ., n-ésima linhas de B coincidem com as de P . Para os
elementos bij de B achamos
ai,k−1
bij = aij − akj
ak,k−1
ai,k−1
bi,k−1 = = ai,k−1 mk−1,k−1 , i = 1, . . . , k.
ak,k−1
0 0 ... 1
cji = bji , j 6= k − 1
ck−1,i = ak1 b1i + . . . + akn bni , i = 1, . . . , n.
0 ... 0 | 0 ... 1 0
D1 | L
= − − − | − − −,
O | D2
(p1 − λ)y1 + p2 y2 + . . . + pn yn = 0,
y1 − λy2 = 0,
y2 − λy3 = 0,
................ ... .
yn−1 − λyn = 0.
Este sistema é homogênio e tem muitas soluções que são proporcionais. Colo-
cando yn = 1, teremos
−1
Mn−1 . . . M1−1 A M1 . . . Mn−1 ȳ = λȳ,
então,
A M1 . . . Mn−1 ȳ = λ M1 . . . Mn−1 ȳ
e, consequentemente,
x̄ = M1 . . . Mn−1 ȳ.
= det [C −1 (A − λI)C]
1
= det (A − λI) det C
det C
= det (A − λI).
Demonstração. De fato,
S 2 (A) = S 2 (T −1 AT ).
Demonstração. Temos
′
S 2 (T −1 AT ) = S 2 (T ′ AT ) = Sp ((T ′ AT ) T ′ AT )
= Sp (T ′ A′ T T ′ AT ) = Sp (T ′ A′ AT )
′
= Sp ((AT ) AT ) = S 2 (AT )
′
= S 2 ((AT ) ) = S 2 (T ′ A′ )
′
= Sp ((T ′ A′ ) T ′ A′ ) = Sp (AT T ′ A′ )
= Sp (AA′ ) = S 2 (A).
ou, equivalentemente,
T ′ AT = D.
De acordo com o Lema 1, o polinômio caracterı́stico não muda depois desta
transformação. Pelo Lema 2, os elementos diagonais de D são os autovalores de
A. Então, o problema será resolvido se acharmos esta transformação T .
Desde que
n
2
X
S 2 (A) ≥ |aii | ( = quando A é matriz diagonal)
i=1
e S 2 (A) não muda depois de tal transformação, de acordo com Lema 3, podemos
procurar T de tal maneira que a soma dos quadrados dos elementos fora da
diagonal principal da matriz T ′ AT , para A fixa, atinge o seu mı́nimo absoluto.
Equivalentemente, a soma dos quadrados dos elementos diagonais da matriz
T ′ AT tem que atingir o seu máximo que é igual a S 2 (A).
O método de Jacobi oferece um processo iterativo para minimização da soma
dos quadrados dos elementos fora da diagonal principal. Em cada passo usamos
uma transformação de semelhança através de uma matriz da forma
1 0
. ..
cos ϕ . . . − sin ϕ
← i
.. ..
Tij (ϕ) = . . .
sin ϕ . . . cos ϕ ← j
..
.
0 1
A diferença entre ela e a matriz identidade está somente nos elementos das linhas
i e j. É óbvio que Tij (ϕ) é ortogonal, isto é, Tij′ (ϕ) Tij (ϕ) = I.
Suponha que no passo (k − 1) chegamos a uma matriz Ak−1 . No k-ésimo
passo executamos a transformação
e
C := Ti′k jk (ϕ) B.
Temos
1 0
..
.
cos ϕ . . . − sin ϕ
.. ..
B= Ak−1 . .
sin ϕ ... cos ϕ
..
.
0 1
e
1 0
..
.
cos ϕ ... sin ϕ
.. ..
C= . . B.
− sin ϕ . . . cos ϕ
..
.
0 1
Para os elementos {bpq } e {cpq } de B e de C obtemos
Denotemos por
2
X
σ̃ 2 = |cpq | ,
p6=q
2
X
σ2 = |apq | .
p6=q
198 Capı́tulo5. Cálculo de Autovalores de Matrizes
+ 2c2ij − 2a2ij .
= a2iq + a2jq , q 6= i, j.
Analogamente,
2 2
= (api cos ϕ + apj sin ϕ) + (−api sin ϕ + apj cos ϕ)
= a2pi + a2pj q 6= i, j.
Além disso,
= 2[(−aii sin ϕ + aij cos ϕ) cos ϕ + (−aji sin ϕ + ajj cos ϕ) sin ϕ]2
1
= [−aii sin 2ϕ + 2aij cos 2ϕ + ajj sin 2ϕ]2
2
1
= [−(aii − ajj ) sin 2ϕ + 2aij cos 2ϕ]2 .
2
Consequentemente,
1 2
(3) σ̂ 2 = σ 2 − 2a2ij + [−(aii − ajj ) sin 2ϕ + 2aij cos 2ϕ] .
2
Assim, σ̂ 2 é mı́nimo se
r
1 + cos arctan s
cos ϕk =
2
½ µ ¶¾ 12
1 1
= 1+ √ .
2 1 + s2
Nesta forma as fórmulas são mais convenientes para serem programadas.
Agora, vamos mostrar que o processo descrito é convergente.
De fato, pela desigualdade (3), aplicada ao (k + 1)-ésimo passo, com os
correspondentes parâmetros ik , jk e ϕk , obtemos
(k) 2
2
(6) σk+1 = σk2 − 2(aik ,jk ) .
200 Capı́tulo5. Cálculo de Autovalores de Matrizes
(k)
Mas, aik ,jk tem o maior módulo de todos os elementos fora da diagonal principal
de Ak . Logo,
(k) 2 σk2
(aik ,jk ) ≥ .
n(n − 1)
Por esta desigualdade e por (6) chegamos à estimativa
σk2
µ ¶
2 2 2 2
σk+1 ≤ σk − 2 = σk 1 −
n(n − 1) n(n − 1)
µ ¶2
2 2
≤ σk−1 1− ≤ ···
n(n − 1)
µ ¶k+1
2 2
≤ σ0 1 − .
n(n − 1)
2
Esta desigualdade implica que σk+1 → 0 quando k → ∞, o que significa que
Ak+1 converge para uma matriz diagonal. Vamos denotá-la por D. Portanto,
para k grande Ak ≈ D e os elementos diagonais de Ak são os autovalores
aproximados de A e as colunas da matriz
k−1
Y
Tk := Til ,jl ,
l=0