Você está na página 1de 80

Anlise Numrica Funcional e

Optimizao. Teoria

Carlos J. S. Alves
Instituto Superior Tcnico
2012

1
Sumrio

1 Espaos funcionais e Mtodo do Ponto Fixo 6


1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Espaos Normados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Noes Topolgicas em Espaos Normados . . . . . . . . . . . . . . . 10
1.2.2 Normas equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Espaos de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Operadores Contnuos . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Operadores Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Mtodo do Ponto Fixo e o Teorema de Banach . . . . . . . . . . . . . . . . . 18
1.5 Derivao de Frchet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.1 Corolrio do Teorema do Ponto Fixo . . . . . . . . . . . . . . . . . . 24
1.5.2 Comportamento assimpttico da convergncia. . . . . . . . . . . . . . 25
1.5.3 Convergncia de ordem superior . . . . . . . . . . . . . . . . . . . . . 27
1.6 Mtodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.7 Ponto Fixo - Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.8 Mtodos Iterativos para Sistemas de Equaes No Lineares . . . . . . . . . 31
1.8.1 Mtodo de Newton para Sistemas de Equaes . . . . . . . . . . . . . 33
1.8.2 Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.8.3 Quasi-Newton usando diferenas divididas . . . . . . . . . . . . . . . 36
1.8.4 Mtodo de Broyden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2 Espaos Funcionais 40
2.1 Resultados em Espaos de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . 40
2.1.1 Sistema Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.2 Derivada generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.3 Espaos de Sobolev (em R) . . . . . . . . . . . . . . . . . . . . . . . 44
2.2 Teorema de Representao de Riesz . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1 Transformada de Fourier e solues fundamentais . . . . . . . . . . . 49
2.2.2 Soluo Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 Optimizao no linear sem restries 51


3.1 Noes bsicas e resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Aspectos gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2 Convexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Equaes com pontos crticos . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2
3.2.1 Exemplo - Mnimos Quadrados . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Exemplo - dimenso finita . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Limitao computacional na optimizao global . . . . . . . . . . . . . . . . 56
3.4 Problemas de optimizao unidimensional . . . . . . . . . . . . . . . . . . . 57
3.4.1 Pesquisa seccional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.2 Aproximao Quadrtica . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Mtodos de Descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5.1 Mtodo do Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5.2 Mtodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5.3 Mtodo de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . 63
3.6 Pesquisa Linear Inexacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 Regra de Armijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.2 Teste de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.7 Sistemas lineares e Direces Conjugadas . . . . . . . . . . . . . . . . . . . . 65
3.7.1 Mtodo do gradiente para sistemas lineares . . . . . . . . . . . . . . . 65
3.7.2 Mtodo das direces conjugadas . . . . . . . . . . . . . . . . . . . . 66
3.8 Mtodos dos Gradientes Conjugados . . . . . . . . . . . . . . . . . . . . . . 68
3.8.1 Mtodos de Fletcher-Reeves e Polak-Ribire . . . . . . . . . . . . . . 68
3.8.2 Implementao como mtodos de descida . . . . . . . . . . . . . . . . 68
3.9 Mtodos Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.9.1 Mtodos BFGS e DFP . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.9.2 Mtodo de Gauss-Newton (mnimos quadrados no lineares) . . . . . 70

4 Optimizao com restries 73


4.1 Condies KKT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Casos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.2.1 Restries lineares de igualdade . . . . . . . . . . . . . . . . . . . . . 77
4.2.2 Caso quadrtico com restries de igualdade lineares . . . . . . . . . 78
4.3 Mtodos para optimizao com restries . . . . . . . . . . . . . . . . . . . . 78
4.3.1 Mtodos de Penalizao . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.2 Mtodos de Barreira . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3.3 Lagrangiano Aumentado . . . . . . . . . . . . . . . . . . . . . . . . . 79

3
Prefcio
Estas folhas seguem essencialmente os cursos de Anlise Numrica Funcional e Opti-
mizao leccionados entre 2010 e 2012.

4
5
Captulo 1

Espaos funcionais e Mtodo do Ponto


Fixo

O Mtodo do Ponto Fixo talvez o mtodo numrico mais simples e eficaz para a resoluo
de quaisquer equaes, dado o seu mbito generalizvel.
Ao escrever uma equao na forma
x = g(x),
a ideia do mtodo do ponto fixo consiste em considerar apenas a iterao
xn+1 = g(xn )
partindo de um valor inicial x0 .
A validade do mtodo resultar da continuidade da funo g, e da unicidade do limite,
porque existindo limite da sucesso, xn z ento
xn+1 z, g(xn ) g(z) = z = g(z).
Uma soluo z assim designada ponto fixo de g porque se mantm invariante perante
a aplicao da funo iteradora g. A convergncia deste mtodo depende muito da escolha
da funo g. Com efeito importante notar que podemos escrever x = g(x) com diferentes
funes, bastando ver que
x 1
x = g(x) x = + g(x) = G(x),
2 2
e a aplicao do mtodo do ponto fixo nova funo iteradora G = x2 + 21 g(x) no produzir
os mesmos resultados que g.
A teoria para resoluo de equaes algbricas em R faz parte de cursos introdutrios
a mtodos numricos.
Exemplo 1. Podemos lembrar, como exemplo, a resoluo de uma equao x2 = a, que
pode ser reescrita de forma equivalente como x = xa (se x 6= 0), ou ainda
x a
x = g(x) = +
2 2x

6
e daqui definir o mtodo do ponto fixo
xn a
xn+1 = +
2 2xn
comeando com x0 = 1. Automaticamente teremos
a+1 a+1 a
x1 = , x2 = + ,...
2 4 a+1

e para certos valores de a esta sucesso converge para + a. Por exemplo, se a = 2, temos

3 17 17
x1 = = 1.5, x2 = = 1.4166.., x3 = = 1.4142..
2 12 12

e ao fim de 3 iteraes temos uma aproximao de 2 com 5 dgitos correctos, usando
apenas somas e divises.
No entanto se esta escolha de g permite estes resultados notveis, se tivessemos deixado
a equao apenas na forma equivalente x = g(x) = xa , o mtodo xn+1 = xan levaria de x0 = 1
a x1 = a, e de novo x2 = 1, x3 = a, no se saindo deste ciclo. Ou seja, h escolhas de g que
funcionam e outras no.

O que determina o sucesso do Mtodo do Ponto Fixo o comportamento da funo


g escolhida. Para a resoluo de qualquer equao algbrica f (x) = 0, uma das melhores
0
escolhas, quando possvel, a utilizao da funo iteradora g(x) = x f (x)/f (x), que
leva ao chamado Mtodo de Newton (que um caso particular de mtodo de ponto fixo):

f (xn )
xn+1 = xn
f 0 (xn )

e foi essa escolha que fizmos no exemplo anterior, em que f (x) = x2 a.


Idealmente, o mtodo de Newton procura que g 0 (z) = 0, para obter convergncia mais
rpida (quadrtica), mas sabemos que o Mtodo do Ponto Fixo converge localmente quando
a funo g contractiva no ponto fixo, ou seja, quando

|g 0 (z)| < 1,

se a derivada estiver definida.


Comeamos por generalizar a aplicao do mtodo do ponto fixo resoluo de equaes
num contexto geral em que as incgnitas no so apenas nmeros reais.

1.1 Motivao
Tomemos como exemplo uma equao em que a incgnita uma funo f contnua tal que
x
f (x) = 1 f (t)dt
0

7
Figura 1.1:

podemos pensar em aplicar o mtodo do ponto fixo comeando com f0 = 0, fazendo


x
fn+1 (x) = 1 fn (t)dt,
0
2
o que d f1 (x) = 1, f2 (x) = 1 x, f3 (x) = 1 x + x2 , etc... Neste caso, curiosamente, a
sucesso de funes fn vai reproduzir a expanso em srie de Taylor da funo ex , oun seja,
a sucesso de funes fn vai convergir para a soluo f (x) = ex = 1 x + ... + (x) n!
+ ...
Vemos na figura seguinte o resultado das 5 primeiras iteraes, onde vsivel a aproxi-
mao das funes f1 , f2 , f3 , ... (representadas a tracejado) funo limite, que neste caso
f (x) = ex (representada a cheio).
Por outro lado, sendo ex ponto fixo da derivao, pois ex = (ex )0 , e comeando com
f0 = 0, ao efectuarmos fn+1 = (fn )0 vamos obter sempre 0, que um outro ponto fixo. No
dificil ver que funes do tipo Cex sero os pontos fixos operador derivao. Portanto,
podemos ter sucesses que convergem para os diferentes pontos fixos se fizermos f0 =
pk (x) + Cex , onde pk (x) um polinmio de grau k, j que ao fim de k + 1 iteraes as
derivaes sucessivas anulam o polinmio. No entanto, se comearmos com f0 = sin(x)
vamos orbitar entre co-senos e senos, no havendo convergncia!
Interessa pois saber sob que condies poderemos garantir convergncia, considerando
equaes mais gerais, em que as incgnitas podem ser nmeros, vectores, sucesses, funes,
etc... A liberdade para as incgnitas no total! Para garantirmos a existncia de um
teorema do ponto fixo, num contexto to geral, precisamos de ter uma estrutura (...um
espao) com propriedades mnimas que permitam um resultado de existncia construtivo,
como ser o teorema do ponto fixo de Banach que iremos apresentar.
Uma estrutura suficientemente geral que permite obter esse resultado a noo de
Espao de Banach (que so espaos vectoriais normados e completos), noo que iremos
definir neste captulo. Tambm poderamos obter o teorema do ponto fixo de Banach para
espaos mtricos completos (como foi originalmente apresentado), mas preferimos consid-
erar apenas espaos de Banach, j que a deduo semelhante e mais simples, permitindo
ainda apresentar resultados relativos derivao de Frchet.

1.2 Espaos Normados


Comeamos por recordar a noo de espao normado. Um espao vectorial normado , como
o nome indica, um espao vectorial a que associamos uma norma. A norma, sendo uma
aplicao que toma valores reais, vai permitir introduzir no espao vectorial uma topologia
que resulta indirectamente da topologia de R. Assim, a noo de norma, que crucial neste
contexto, vai generalizar o papel desempenhado pelo mdulo nos reais (ou nos complexos).

Definio 1. Seja E um espao vectorial, em que o corpo dos escalares R ou C.


Uma aplicao ||.|| designa-se norma se verificar:

8
||.|| : E [0, +)

||x|| = || ||x|| , x E, R ou C,

||x + y|| ||x|| + ||y||, x, y E (desigualdade triangular),

||x|| = 0 x = 0.

A um espao vectorial E munido de uma norma ||.||, chamamos espao vectorial normado
e indicamos (E, ||.||) apenas em caso de ambiguidade. Normalmente apenas indicamos E,
subentendendo qual a norma em questo. Quando indicarmos ||.||E referimo-nos norma
no espao (E, ||.||).

Observao 1. (i) A partir de uma norma, podemos definir imediatamente uma distncia
d(x, y) = ||x y||, que nos permite quantificar uma certa proximidade entre dois elementos
do espao vectorial (beneficiando da relao de ordem existente nos reais). Consequente-
mente, fica estabelecida uma noo de vizinhana, que definir a topologia.
(ii) importante notar que estando definidas vrias normas sobre um mesmo espao
vectorial, elas podem estabelecer um critrio de proximidade diferente (ou seja, importante
estar subjacente qual a norma usada! Quando, ao longo do captulo, escrevemos xn x,
fulcral termos presente segundo que norma isso acontece). Iremos ver que se o espao
vectorial tiver dimenso finita, todas as normas a definidas so equivalentes, mas isso no
vlido para espaos com dimenso infinita... poder acontecer que uma sucesso convirja
segundo uma norma, mas no segundo outra!
(iii) Se no espao vectorial estiver definido um produto interno x y, ento a norma
natural associada a esse produto interno ||x|| = x x, e podemos usar a importante
desigualdade de Cauchy-Schwarz:

|x y| ||x|| ||y||

(iv) Reparamos que a generalizao da noo de mdulo explcita na propriedade


||x|| = || ||x||, pois precisamos da noo de mdulo no corpo, para que esta propriedade
se verifique.

Exerccio 1. .
a) Mostre que em RN ou CN so normas as aplicaes

||x|| = max{|x1 |, ..., |xN |}

||x||p = (|x1 |p + ... + |xN |)1/p


b) Verifique que se considerarmos u = (un )nN uma sucesso de reais (ou complexos), a
aplicao
||u||p = (|u1 |p + ... + |un |p + ...)1/p
uma norma no subespao das sucesses

lp = {(un )nN : ||u||p < +},

9
e que a aplicao
||u|| = sup{|u1 |, ..., |un |, ...}
uma norma no sub-espao das sucesses

l = {(un )nN : ||u|| < +}.

c) Da mesma forma, considerando o espao das funes f definidas num intervalo I, a


menos de um conjunto com medida de Lebesgue nula (i.e: conjunto numervel), mostre que
a aplicao
 1/p
p
||f ||p = |f (x)| dx
I

uma norma no subespao

Lp = {f (x) : ||f ||p < +},

e que a aplicao
||f || = sup |f (x)|
xI

uma norma no espao das funes contnuas C(I) quando I compacto.


(No contexto das funes Lp , a norma definida usando o supremo essencial ).
Nota: Admita a desigualdade triangular para as normas ||x||p (conhecida como desigual-
dade de Minkowski).

1.2.1 Noes Topolgicas em Espaos Normados


A norma define uma certa topologia num espao normado. Devemos ter presente que num
mesmo espao vectorial podemos trabalhar com vrias normas, e consequentemente com
noes de proximidade diferentes, ou seja com topologias diferentes! A noo fundamental
que define a topologia do espao a noo de vizinhana.

Definio 2. Designamos por -vizinhana de x ao conjunto V (x) = {y E : ||xy|| < }.

Um conjunto A aberto em E se x A > 0 : V (x) A

Um conjunto A fechado se E\A for aberto.

Exerccio 2. Mostre que os conjuntos B(a, r) = {x E : ||x a|| < r} so conjuntos


r) = {x E :
abertos, designados por bolas abertas, e que so conjuntos fechados B(a,
||x a|| r}, chamados bolas fechadas.

Observao 2. Para alm disso, reunies de abertos so abertos e interseces de fechados


so fechados, mas s podemos garantir que interseces de abertos so abertos, ou que
reunies de fechados so fechados se forem em nmero finito. Os conjuntos E e so
simultaneamente abertos e fechados!

10
Um conjunto A diz-se limitado se R 0 : x A, ||x|| R.

Um conjunto A compacto se toda a sucesso em A tem uma subsucesso convergente,


com limite pertencente a A.

Num espao de dimenso finita, se um conjunto for fechado e limitado um compacto, mas
em espaos de dimenso infinita isso nem sempre acontece1 .

Definio 3. Uma sucesso (xn ) num espao normado E converge para x E, e escrevemos
xn x, se
n
||xn x|| 0

Observao 3. claro que o limite, a existir, nico. Basta reparar que se x e y fossem
limites da sucesso (xn ), ento para qualquer > 0 existe um n suficientemente grande
tal que ||x xn || < , ||xn y|| < , logo ||x y|| ||x xn || + ||xn y|| < 2. Ou seja,
> 0, ||x y|| < 2, o que implica x = y.

1.2.2 Normas equivalentes


Duas normas distintas do geralmente valores diferentes para um mesmo elemento do es-
pao, no entanto, esta diferena quantitativa pode no reflectir uma diferena qualitativa,
j que as propriedades topolgicas podem revelar-se equivalentes. neste quadro que ire-
mos introduzir a noo de normas equivalentes e verificar que as normas em espaos de
dimenso finita (p. ex. RN ou CN ) so equivalentes.

Definio 4. Duas normas ||.|| e |||.|||, num mesmo espao vectorial E, dizem-se equiva-
lentes se existirem C1 , C2 > 0 tais que:

C1 ||x|| |||x||| C2 ||x|| , x E (1.1)

Observao 4. Como claro, esta noo de equivalncia entre normas significa que as
topologias tambm sero equivalentes, ou seja, que os abertos e fechados sero os mes-
mos, que um conjunto sendo limitado para uma norma tambm o ser para outra, que a
continuidade numa norma implica continuidade na outra, etc. (exerccio).

Lema 1. Seja E um espao normado de dimenso finita. Ento, qualquer que seja a norma
|||.||| em E, existe R > 0:

|||x||| R, x {||x|| 1}.


1 1) no espao l . As sucesses u(k) (u(k)
Basta pensar na bola B(0, n ) tais que
(
(k) 1 se n = k
un = kn =
0 se n 6= k

1) mas no possvel extrair nenhuma subsucesso convergente da sucesso u(k) porque


pertencem a B(0,
os elementos constituem uma base do espao l .

11
Figura 1.2:

Demonstrao. Seja e(1) , ..., e(N ) uma base do espao vectorial E, sabemos que sendo x =
x1 e(1) + ... + xn e(n) ento

|||x||| = |||x1 e(1) + ... + xN e(N ) ||| (|||e(1) ||| + ... + |||e(N ) |||) max |xi |.
i=1,...,N

Como ||x|| = maxi=1,...,N |xi | 1 basta tomar R = |||e(1) ||| + ... + ||e(N ) ||| > 0.
Teorema 1. As normas em espaos de dimenso finita so equivalentes.
Demonstrao. Basta ver que qualquer norma |||.||| equivalente norma ||.|| , devido
transitividade da relao de equivalncia. Consideremos o conjunto S = {x E : ||x|| =
1}. S um compacto na topologia de |||.|||, porque no lema anterior vimos que era limitado
e, sendo fechado, isto suficiente, num espao de dimenso finita.
Como a norma um operador contnuo, e S compacto, vai existir um mximo e um
mnimo (generalizao do T. Weierstrass):

C1 |||x||| C2 , x S

e C1 > 0 pois |||x||| = 0 sse x = 0 6 S.


Ora, qualquer que seja y E, y 6= 0 podemos escrever y = ||y|| ||y||y , onde x = y
||y||

S. Portanto:
y
C1 ||| ||| C2 , y E\{0}
||y||
e obtemos, como pretendiamos,

C1 ||y|| |||y||| C2 ||y|| , y E,

incluindo trivialmente o caso y = 0.

2
Exemplo 2. Consideremos a sucesso xn = (1 n12 , n2n+4 ) cujos pontos representamos nas
trs figuras em baixo. bvio que esta sucesso tende para o ponto x = (1, 1), o que
se pretende pr em evidncia que isso acontece segundo qualquer uma norma em R2 ,
j que foi isso que acabou de ser demonstrado. Considermos trs normas diferentes (a
que correspondem as trs figuras), a norma euclidiana ||.||2 , a norma do mximo ||.|| e a
norma da soma ||.||1 , que so as mais usuais, e em torno do ponto limite x = (1, 1) foram
consideradas bolas (o nome no se aplica apenas primeira... B(a, r) = {x : ||x a|| r})
com raios entre 0.5 e 0.1. fcil perceber que qualquer que seja a norma, por mais pequeno
que seja o raio, sempre possvel encontrar um dos elementos da sucesso dentro dessa bola
(vizinhana). Isto significa que a sucesso converge segundo qualquer uma das normas.
Por outro lado, tambm claro que estabelecer a equivalncia entre as normas ||.||2 e
||.|| , fcil, podemos mesmo explicitar as constantes. Com efeito, como (dimenso=N )

||x||22 = x21 + ... + x2N max{|x1 |2 , ..., |xN |2 } = ||x||2 ,


||x||22 = x21 + ... + x2N N max{|x1 |2 , ..., |xN |2 } = N ||x||2 ,

12
conclumos que
||x|| ||x||2 N ||x|| .
Isto corresponde a dizer, em dimenso 2, que se um quadrado contm o crculo com o
mesmo raio, um crculo com 2 vezes esse raio j ir conter o quadrado. A equivalncia
simplesmente isto, e permite concluir que bolas numa certa norma vo estar includas
em bolas noutra norma e vice-versa2 . Para terminar, referimos que explicitar as constantes
para a equivalncia entre ||.||1 e ||.|| igualmente fcil. Como,
||x||1 = |x1 | + ... + |xN | max{|x1 |, ..., |xN |} = ||x|| ,
||x||1 = |x1 | + ... + |xN | N max{|x1 |, ..., |xN |} = N ||x|| ,
conclumos que
||x|| ||x||1 N ||x|| .
(o que significa que o losango ir estar includo num quadrado com o mesmo raio e que esse
quadrado estar includo num losango com o dobro do raio).

Exemplo 3. No caso em que trabalhamos em espaos de funes, as bolas tomam um


aspecto menos trivial, porque o espao deixa de ter dimenso finita.
Na figura seguinte, esquerda, representamos a funo f (x) = 2 cos(x) (curva a cheio)
no intervalo [0, 2]. A bola centrada em f e de raio 1, segundo a norma das funes contnuas
||.|| , ser o conjunto das funes g tais que ||f g|| = max[0,2] |f (x) g(x)| < 1, ou seja
ser definida pelas funes g que verifiquem 2 cos(x) 1 < g(x) < 2 cos(x) + 1, limites que
esto representados por curvas contnuas mais finas e que formam uma banda em redor de
f. Um exemplo de funo g que pertence a essa bola g(x) = 2 cos(x) + 21 sin(3x), funo
representada a tracejado. No grfico da direita, voltamos a considerar as mesmas funes f
2
e g e uma outra, h(x) = 2 cos(x) + m1 sin(3x) + 2e200m(x1) , com m = 5 (em que a ltima
parcela, uma gaussiana pronunciada, responsvel pelo pico vsivel no grfico). Mesmo no
estando representada a banda, perceptvel que o pico estar fora dos limites, e portanto
fora da bola de raio 1 definida pela norma do mximo.
No entanto, este exemplo foi escolhido por outra razo. Se virmos a diferena entre f e h
em termos de rea, ou seja em termos da norma L1 , ||.||1 ,essa diferena menor do que
a diferena entre f e g. Mais, podemos mesmo considerar uma sucesso de funes h que,
quando o parmetro m tende para infinito, ir aproximar-se da funo f. Bom... excepto
no ponto x = 1, j que o pico ir persistir. O limite pontual ser uma funo f, idntica a
f, mas que no ponto x = 1 ir valer 2cos(1) + 2 3.08. Do ponto de vista da norma ||.|| ,
a sucesso no converge, porque o pico ir sempre ficar fora de qualquer bola de raio menor
que 1. Do ponto de vista da norma ||.||1 (definida pelo integral do mdulo) a diferena
entre as reas ir tender para zero, pelo que a sucesso ir convergir. Isto bem conhecido
da teoria do integral de Lebesgue, que identifica f e f a menos de conjunto de medida nula
(neste caso, o ponto x = 1).
2
Refira-se
a este propsito que quando a dimenso do espao aumenta, seria necessrio uma hiperesfera
com N vezes o hipercubo para que ele estivesse contido nela. Isto indicia que em espaos de dimenso
infinita as coisas iro passar-se de forma diferente. Com efeito, quando a dimenso tende para infinito os
hipercubos unitrios sero infinitamente maiores que as hiperesferas unitrias.

13
Figura 1.3:

Este exemplo torna tambm claro que no h equivalncia entre as normas ||.|| e ||.||1 ,
o que tambm poder ser compreendido se pensarmos que a funo f (x) = 1x que est na
2) definida pela norma em L1 (]0, 1[), j que o integral existe, tendo-se ||f ||1 = 2.
bola B(0,
No entanto, sendo uma funo ilimitada no h qualquer bola definida pela norma ||.||
que contenha essa funo.
Tambm fica claro que, para desenhar os limites duma bola para a norma ||.|| basta
considerar uma banda circundante, mas para desenhar os limites duma bola para a norma
||.||1 -nos simplesmente impossvel...

1.3 Espaos de Banach


O facto de introduzirmos uma topologia num espao normado no significa que exista um
elemento (pertencente a esse espao) que seja limite de sucesses de Cauchy (... como no
exemplo anterior). nesse sentido que iremos introduzir a noo de espao completo, e
consequentemente a noo de espao de Banach (espao normado completo). Comeamos
por ver que as sucesses convergentes so sucesses de Cauchy, mas que o recproco pode
no ser vlido.
Definio 5. Uma sucesso (xn ) num espao normado E diz-se sucesso de Cauchy em E
se
m,n
||xm xn || 0.
Proposio 1. Se xn x em E, ento (xn ) sucesso de Cauchy em E.
Demonstrao. ||xm xn || ||xm x|| + ||x xn || 0, quando m, n .

Observao 5. O recproco desta proposio nem sempre ser vlido. Ou seja, podemos ter
sucesses cujos termos se aproximam indefinidamente, mas que no tm limite em E. Isto
anlogo ao que se passa com os racionais... uma sucesso de Cauchy de racionais pode no
ter limite nos racionais, basta pensar na sucesso x0 = 1, xn+1 = x2n + x1n cujos termos so

sempre racionais, mas que converge para 2, ou na sucesso definida por yn = (1 + n3 )n Q
e cujo limite e3 .
A soluo foi considerar essa sucesses como sendo nmeros, constituindo os nmeros
reais, completando assim o espao dos racionais, como vimos no incio do texto. A partir
da o nosso espao comum de trabalho o dos nmeros reais. No caso das funes ir
passar-se algo semelhante, mas com a grande diferena de podermos num mesmo espao
considerar vrias normas. Assim, se sucesses de Cauchy de funes contnuas segundo a
norma do mximo so ainda funes contnuas, devido continuidade uniforme, o mesmo
no ir acontecer se considerarmos outra norma, por exemplo a norma L1 .
Isto poderia significar que tendo obtido uma sucesso de Cauchy com o mtodo do ponto
fixo, esta no teria ponto fixo num simples espao normado. Torna-se por isso conveniente
trabalhar num espao em que isso no acontea - num espao de Banach:

14
Definio 6. Um espao vectorial normado E diz-se espao de Banach se for completo,
ou seja, se toda a sucesso de Cauchy em E for uma sucesso convergente para um certo
x E.

Exemplo 4. Os exemplos mais simples de espaos de Banach, so os prprios corpos R


ou C, ou ainda RN ou CN . Um espao vectorial com produto interno que seja completo
normalmente designado espao de Hilbert. Como bvio, usando a norma ||x|| = (x.x)1/2 ,
um espao de Hilbert ser sempre um caso particular de um espao de Banach, sendo vlidas
todas as propriedades que iremos deduzir de seguida.
Num espao normado, um conjunto fechado tem a importante propriedade de conter o
limite de qualquer sucesso convergente, cujos termos lhe pertenam.
Proposio 2. Se o conjunto A fechado em E ento
(xn ) A : xn x = x A
Demonstrao. Se, por absurdo, x / A, teramos x E\A que um aberto, existindo
assim uma vizinhana V (x) E\A e portanto ||x xn || > para qualquer n, contrariando
a hiptese de convergncia.

Portanto um subespao vectorial fechado de um espao de Banach, ainda um espao


de Banach para a mesma norma.

Exerccio 3. Mostre que o espao de funes C m [a, b], munido da norma


||f ||,m = sup |f (x)| + sup |f 0 (x)| + ... + sup |f (m) (x)|
x[a,b] x[a,b] x[a,b]

um espao de Banach. Se m = 0, temos a norma j apresentada para as funes contnuas,


e a completude resulta do facto da convergncia uniforme de funes contnuas ser uma
funo contnua.

Exerccio 4. Verifique que qualquer um dos espaos normados apresentados no exerccio1


um espao de Banach.

Observao 6. (incompletude das funes contnuas em Lp ). Retomamos a ideia enunciada


no ltimo exemplo da seco anterior, que iremos agora analisar mais detalhadamente, num
exemplo clssico. Consideremos a sucesso de funes contnuas em [0, 2]
 n
x se x [0, 1[
fn (x) =
1 se x [1, 2],
Vemos que fn C([0, 2]) uma sucesso de Cauchy para a norma L1 , porque
1
1 1 m,n
||fm fn ||1 = |xm xn |dx = | | 0.
0 m + 1 n + 1

15
No entanto verificamos que, pontualmente, a sucesso (fn ) converge para uma funo
que nula em [0, 1[ e igual a 1 em [1, 2], ou seja, uma funo que descont nua! Conclu
mos que C([0, 2]) no completo para a norma L1 . Vejamos que para a norma habitual de
C[a, b] que ||.|| , a sucesso em causa no de Cauchy. Com efeito,
||fm fn || = sup |xm xn |
x[0,1]

e se considerarmos m = 2n, temos (x2n xn )0 = 0 x = 0 ou xn = 12 . O mximo assim


atingido no ponto ( 21 )1/n , logo
1 1 1
sup |x2n xn | = | | = 6 0
x[0,1] 4 2 4

portanto, como se previa, a sucesso no de Cauchy para a norma ||.|| .


Conclumos assim que o espao das funes contnuas no completo para a norma L1
(nem o ser, para nenhuma das outras normas Lp ).

1.3.1 Operadores Contnuos


Como um espao normado uma estrutura muito geral, que pode ter como elementos
funes, costume designar as funes definidas em espaos normados por operadores.
Como abreviatura, tambm habitual designar a imagem de x pelo operador A por Ax,
ao invs de A(x). Na realidade, este tipo de notao ser tambm coerente com a notao
matricial3 , quando os operadores a considerar forem operadores lineares em espaos de
dimenso finita.

Definio 7. Sejam E, F espaos normados. Dizemos que um operador A : X E F


contnuo em X, se para qualquer x X tivermos
(xn ) X, xn x Axn Ax.

Exemplo 5. A prpria norma um operador contnuo de E em R. Com efeito, se xn x


em E, ento
| ||xn || ||x|| | ||xn x|| 0,
porque se ||xn || ||x|| temos
|||xn || ||x||| = ||xn + x x|| ||x|| ||xn x|| + ||x|| ||x||.
Da mesma maneira, se ||xn || ||x||, temos |||xn || ||x||| = ||x xn + xn || ||xn ||
||x xn || + ||xn || ||xn ||.
3
Com a precauo devida, encarar os operadores como matrizes pode tambm ser uma boa maneira
de olhar para esta teoria pela primeira vez. De facto os resultados obtidos para operadores em espaos
de Banach sero em particular vlidos para matrizes (que so operadores lineares e cont nuos em espaos
de dimenso finita)... o contrrio nem sempre ser vlido essa a principal precauo que se deve ter
sempre!

16
Exerccio 5. Sejam E, F, G espaos normados. a) Mostre que se A, B : X E F forem
operadores contnuos, A + B um operador contnuo, e que para qualquer R ou C, o
operador A contnuo. b) Mostre que se A : X E Y F, B : Y F G so
operadores contnuos, ento B A tambm contnuo (em X).
(Quando no h perigo de confuso, normalmente adoptada a notao multiplicativa
para designar a composio, ou seja BA = B A, tal como nas matrizes)

1.3.2 Operadores Lineares


De entre os operadores contnuos, so especialmente importantes aqueles que sejam lineares,
ou seja, que verifiquem as propriedades

A(x + y) = Ax + Ay, x, y E
A(x) = Ax, x E, R (ou C)

Os operadores lineares4 so contnuos se e s se forem limitados, ou seja, se verificarem

sup ||Ax||F < +.


||x||E 1

Como se tratam de operadores lineares, isto significa que transformam qualquer conjunto
limitado num conjunto limitado5 .

Sejam E, F espaos de Banach. Podemos considerar um espao associado aos oper-


adores, o espao dos operadores lineares contnuos, L(E, F ), que com a norma

||Ax||F
||A||L(E,F ) = sup ||Ax||F = sup (1.2)
||x||E 1 x6=0 ||x||E

um espao de Banach. claro que, para qualquer x E,

||Ax||F ||A||L(E,F ) ||x||E .

Exerccio 6. Mostre que se A, B L(E, E), temos

||AB||L(E,E) ||A||L(E,E) ||B||L(E,E) .

A introduo de operadores lineares importante j que, em muitos casos tenta linearizar-


se o operador para simplificar o seu estudo. Em certos exemplos esta tcnica pode ser vista
como uma generalizao da aproximao local de uma funo atravs da tangente, que
utilizaremos quando falarmos de derivao de Frchet.
4
Esta propriedade vlida apenas para operadores lineares!
5
Reparamos que se A for linear e contnuo em 0, ento A contnuo em qualquer x, pois xn x
Axn Ax = A(xn x) 0.
Logo, quando o operador linear e limitado, se considerarmos ||x||E temos ||Ax||F C, logo se
xn 0 temos Axn 0, o que significa que A contnuo em 0.

17
1.4 Mtodo do Ponto Fixo e o Teorema de Banach
Iremos agora concretizar a generalizao do mtodo e do teorema do ponto do fixo a espaos
de Banach.
Seja A um operador qualquer definido num subconjunto X (designado domnio) de um
espao de Banach E,
A : X E E.
Pretendemos encontrar os pontos fixos de A, ou seja z X :

z = Az

e para esse efeito vamos usar o mtodo do ponto fixo (tambm designado mtodo de Picard),

x0 X
.
xn+1 = Axn

Como o mtodo implica repeties sucessivas do operador A, natural exigir que imagem
ainda esteja no dom nio, ou seja A(X) X.
Como vimos em R e em C para assegurar a convergncia do mtodo foi usada a noo
de contractividade, que neste contexto se define da seguinte forma:

Definio 8. Um operador A : X E E, num espao de Banach E diz-se contractivo


em X, se existir 0 L < 1 (denominada constante de contractividade), tal que

||Ax Ay|| L||x y|| , x, y X.

Proposio 3. Se A contractivo em X, conjunto fechado, ento A contnuo em X.

Demonstrao. Com efeito, basta considerar (xn ) X tal que xn x

||Axn Ax|| L||xn x|| 0 Axn Ax.

Estamos agora em condies de demonstrar o teorema do ponto fixo de Banach.

Teorema 2. (Teorema do ponto fixo de Banach).


Seja X um conjunto fechado no vazio6 num espao de Banach E, e seja A um operador
contractivo em X tal que A(X) X.
Ento
i) Existe um e um s ponto fixo z X : Az = z
ii) A sucesso xn+1 = Axn converge para o ponto fixo z, qualquer que seja x0 X.
6
Uma precauo... por vezes podem demonstrar-se todas as hipteses e esquecermo-nos de mostrar que
o conjunto X tem elementos. Isso acontece quando X no um conjunto concreto, e definido de forma
a verificar certas propriedades... que por vezes nenhum elemento verifica.

18
iii) Verificam-se as desigualdades:

||z xn || L||z xn1 || Ln ||z x0 ||,


1
||z xn || ||xn+1 xn ||,
1L
Ln
||z xn || ||x1 x0 ||,
1L
onde L < 1 a constante de contractividade.

Demonstrao. 1o ) Prova-se por induo que qualquer xn X, porque assumimos x0 X,


e se xn X, temos xn+1 = Axn X, pois A(X) X.
2o ) (xn ) sucesso de Cauchy. Como A contractivo em X e xn X, n N temos

||xn+1 xn || = ||Axn Axn1 || L||xn xn1 ||,

portanto ||xn+1 xn || Ln ||x1 x0 ||, e introduzindo somas e subtraes sucessivas, obtemos


assim:

||xn+m xn || ||xn+m xn+m1 ||+...+||xn+1 xn || Ln+m1 ||x1 x0 ||+...+Ln ||x1 x0 || =

1 Lm Ln
= Ln (Lm1 + ... + 1)||x1 x0 || = Ln ||x1 x0 || ||x1 x0 ||
1L 1L
que converge para zero quando n, m .
3o ) Existncia e convergncia.
Como E completo e (xn ) sucesso de Cauchy, existe z E tal que xn z. Por
outro lado, como X fechado, conclumos que z X. Como xn z e A contnuo (porque
contractivo), ento xn+1 = Axn Az. Pela unicidade do limite, temos z = Az, o que
prova a existncia de um ponto fixo em X.
4o ) Unicidade.
Supondo que existiam z, w X tais que z = Az e que w = Aw, ento

||z w|| = ||Az Aw|| L||z w|| (1 L)||z w|| 0

ora como L < 1 temos ||z w|| 0, ou seja, ||z w|| = 0 z = w.


5o ) Estimativas:

||z xn || ||Az Axn1 || L||z xn1 || ... Ln ||z x0 ||

||z xn || ||z xn+1 || + ||xn+1 xn || L||z xn || + ||xn+1 xn ||


e daqui saiem facilmente as restantes.

19
Observao 7. (i) Nesta demonstrao, ao provarmos que a sucesso de Cauchy, assegu-
ramos imediatamente a existncia de ponto fixo o que difere da demonstrao apresentada
para o caso de intervalos limitados em que assegurmos existncia atravs do teorema do
valor intermdio7 .

Observao 8. Note-se que ainda que esteja estabelecida a equivalncia entre normas (como
entre todas as normas no caso de dimenso finita), provar a contractividade para uma norma
no significa que ela seja vlida para as normas equivalentes. A contractividade uma
propriedade quantitativa e no qualitativa, e poder haver diferenas. Por exemplo, em
dimenso finita, muitas vezes possvel demonstrar a contractividade, num certo conjunto,
para a norma ||.|| e no para a norma ||.||1 ou vice-versa. claro que isso no invalida
que haja convergncia nas duas normas, e se considerarmos um conjunto mais pequeno ser
mesmo possvel mostrar a contractividade em qualquer das normas equivalentes.

Exemplo 6. Consideremos o operador


x
Af (x) = 1 f (t)dt
0

no espao de Banach E = C[0, R1 ] com a norma ||f || = max |f (x)|, em que R 2. O


subconjunto fechado que consideramos X = {f C[0, R1 ] : ||f || R}, constatando que,
sendo f contnua em I = [0, R1 ], Af ainda uma funo em contnua em I. Vejamos que
A(X) X. Ora, supondo ||f || R,
x
1
||Af || = max |1 f (t)dt| 1 + max |f (x)| 2.
xI 0 R xI

Para assegurarmos a convergncia, falta apenas verificar a contractividade:


x
1 1
||Af Ag|| = max |1 1 f (t) g(t)dt| max max |f (t) g(t)| ||f g|| .
xI 0 R xI t[0,x] R

Esto assim asseguradas as hipteses do teorema do ponto fixo de Banach, e a convergncia


para o ponto fixo est provada. Como j tinhamos mencionado, trata-se da funo ex .

Exemplo 7. Consideremos o sistema em R3



3x1 + x2 = 1 x1 = 1/3 x2 /3
2x1 + 4x2 + x3 = 0 x2 = x1 /2 x3 /4
x2 + 2x3 = 2 x3 = 1 x2 /2

7
Em espaos de dimenso finita podemos usar o teorema do ponto fixo de Brouwer para garantir ex-
istncia em conjuntos convexos e limitados. Em espaos de dimenso infinita utilizado um teorema de
Schauder que exige que o operador seja compacto.

20
Podemos pois considerar A : R3 R3 definido por
A(x1 , x2 , x3 ) = (1/3 x2 /3, x1 /2 x3 /4, 1 x2 /2)
Vejamos que A contractivo em R3 para a norma ||.|| :
1

3
(x 2 y 2 )
||Ax Ay|| = || 21 (x1 y1 ) + 14 (x3 y3 ) ||
1
2
(x2 y2 )
designando M = ||x y|| = max{|x1 y1 |, |x2 y2 |, |x3 y3 |}, obtemos assim
1 3 1 3
||Ax Ay|| max{ M, M, M } M
3 4 2 4
e portanto uma constante de contractividade 43 , e sendo contractiva em IR3 , que fechado,
qualquer aproximao inicial permite, atravs do mtodo do ponto fixo, obter a soluo
nica x (0.5294, 0.5882, 1.2941).

Vemos assim que o teorema do ponto fixo to geral que pode ser aplicado a equaes
que envolvem integrais, a sistemas de equaes, ou simplesmente a equaes em R ou C.
claro que quanto mais pequena for a constante de contractividade L, mais rpida ser
a convergncia. Como no caso real, podemos falar em ordem de convergncia. Convm
assim restabelecer a definio
Definio 9. Dizemos que xn converge para z com pelo menos ordem de convergncia
linear na norma ||.|| se existir K < 1 :
||en+1 ||
Kn = K.
||en ||
Quando Kn 0, diremos que a ordem de convergncia supralinear.
No caso de aplicao do teorema do ponto fixo, como mostrmos que ||en+1 || L||en ||,
com L < 1, podemos concluir que a convergncia pelo menos linear. Para prosseguirmos
com a anlise, avaliando se o limite de Kn existe, precisamos de introduzir a noo de
derivao aplicada aos espaos de Banach. Havendo duas possibilidades, optamos por in-
troduzir a noo de derivao de Frchet e no a de Gateaux, que nos parece mais adequada
para os nossos objectivos. Essa noo de diferenciabilidade permitir estender muitos dos
critrios observados no caso real, e apresentar o mtodo de Newton.

1.5 Derivao de Frchet


A derivao em espaos abstractos tem aspectos no triviais, que omitiremos deliberada-
mente (para uma compreenso aprofundada ver, por exemplo [?]). Iremos concentrar-nos
no objectivo principal que estabelecer resultados anlogos aos que existem em R e que
depois possam ser aplicados em RN . Estas noes so imediatamente reconhecidas no caso
em que o clculo diferencial em RN foi apresentado recorrendo noo de forma diferencial.

21
Definio 10. Sejam E, F espaos normados e A um operador A : X E F, cujo
domnio X um aberto8 . Dizemos que A Frchet-diferencivel (ou F-diferencivel ) no
ponto x X, se existir um operador linear T L(E, F ) tal que:

||A(x + h) Ax T h||F = o(||h||E ) quando ||h||E 0 (1.3)

Caso o operador T exista, chamado derivada de Frchet em x, e escrevemos A0x , tendo-se

A0 : X L(E, F )
x 7 A0x : E F (operador linear)

Se A for F-diferencivel em todos os pontos x X diremos que A F-diferencivel em X.

Definio 11. Uma funo f : I R R diferencivel em x I, se existir o limite


f (y) f (x)
lim ,
yI, yx yx
que designamos por derivada de f de x, ou abreviadamente f 0 (x). Reparamos que fazendo
h = y x, isto equivalente a
f (x + h) f (x)
f 0 (x), quando h 0.
h
Ou seja, equivalente a dizer que existe um nmero f 0 (x) :

|f (x + h) f (x) f 0 (x)h| = o(|h|), quando |h| 0,

o que corresponde noo de derivao de Frchet.

Proposio 4. Se A0x existir nico.


Demonstrao. Seja A0x = T e consideremos outro operador U nas condies da definio.
Ento teramos, para qualquer y E\{0},

||(T U )y||F ||T (y) U (y)||F


=
||y||E ||y||E
||T (y) A(x + y) + Ax||F ||A(x + y) Ax U (y)||F 0
( + ) 0
||y||E ||y||E

(somando e subtraindo A(x + y) Ax com > 0), onde y corresponde ao h da definio.


Usando a definio de norma em L(E, F ), concluimos que ||T U ||L(E,F ) = 0, i.e:
T = U.

8
Quando X fechado, diremos que A F-diferencivel em X se existir um aberto X X onde A

F-diferencivel. Para esse efeito, claro que necessrio que A esteja definido em X.

22
Exerccio 7. Verifique que se A Frchet-diferencivel, ento A contnuo.

Exemplo 8. O exemplo mais simples, para alm da derivao vulgar em R ou C, aparece


em RN .
Com efeito, se considerarmos uma funo f : RN RN , a derivada de Frchet corre-
sponde a considerar a matriz jacobiana9 ,
f1 f1

...
x1
(x) xN
(x)
f (x) = .
.. .. ..
,

. .
fN fN
x1
(x) . . . xN
(x)

que uma aplicao linear RN RN . Isto uma consequncia da frmula de Taylor em


RN ,
f (y) = f (x) + f (x)(y x) + o(||y x||)

Por exemplo, se A(x1 , x2 ) = (x21 + x2 , x1 ex2 ) temos


 
2x1 1
A0(x1 ,x2 ) = .
ex2 x1 ex2

Observao 9. A derivada de Frchet de qualquer operador constante o operador nulo.


- Sendo A um operador linear, a sua derivada de Frchet em qualquer ponto x sempre
o prprio operador linear (sendo assim constante em x). Convm interpretar correctamente
esta afirmao. Como A(x + h) A(x) Ah = 0, para qualquer ponto x, a derivada
sempre A0x = A, ou seja constante relativamente a x. Assim a segunda derivada seria o
operador nulo, j que A0x+h A0x = A A = 0. Vemos assim que tudo se mantm coerente
com as propriedades habituais.
- A derivao, assim definida, possui algumas das propriedades habituais, como a lin-
earidade: (A + B)0 = A0 + B 0 e (A)0 = A0 ; ou a propriedade para a composio:

Exerccio 8. Sendo E, F, G espaos de Banach, e A : X E Y F, B : Y F G,


diferenciveis, a aplicao B A : X E G diferencivel e temos

0 0
(B A)x = BAx A0x (1.4)
0
onde (B A)x L(E, G). Para alm disso, claro que

||(BA)0x ||L(E,G) ||BAx


0
||L(F,G) ||A0x ||L(E,F ) .
9
Por vezes tambm designada matriz jacobiana a transposta desta. Essa escolha implicaria escrever
[f ]> v, quando quisessemos efectuar o produto por v, o que tornaria as notaes mais pesadas.

23
1.5.1 Corolrio do Teorema do Ponto Fixo
Com o intuito de aplicar o Teorema do Ponto Fixo de Banach, reparamos que se exigirmos
que o conjunto seja convexo10 podemos obter um resultado, semelhante ao do caso real (ou
complexo), que relaciona a norma da derivada inferior a L < 1 contractividade.
Definio 12. Um conjunto no vazio X E diz-se convexo se verificar

x, y X t [0, 1], x + t(y x) X. (1.5)

Observao 10. Usando a definio, fcil ver que as bolas so conjuntos convexos: porque
se x, y B(a, r) = {w E : ||w a|| < r}, ento

||x+t(y x)a|| = ||(1t)(xa)+t(y a)|| (1t)||xa||+t||y a|| (1t)r +tr = r.

Teorema 3. Sejam E, F espaos de Banach e seja A um operador Frchet-diferencivel


num convexo X
A:XEF
Se tivermos
||A0x ||L(E,F ) L < 1, x X
ento
||Ax Ay||F L||x y||E , x, y X.
Demonstrao. Consideramos B(t) = A(x + t(y x)), com t [0, 1]. Se x, y X, como
convexo, temos x + t(y x) X. Usando a regra de derivao da funo composta (1.4),
obtemos:
Bt0 = A0x+t(yx) (y x)
e vamos usar uma generalizao da frmula dos acrscimos finitos Aplicando este resultado
a B : [0, 1] F, como

||Bt0 ||L(R,F ) = ||A0x+t(yx) (y x)||L(R,F ) ||A0x+t(yx) ||L(E,F ) ||y x||L(R,E)

e sendo X convexo temos x + t(y x) X, logo ||A0x+t(yx) ||L(E,F ) L.


Portanto, ||Bt0 ||L(R,F ) L||y x||E (reparando que ||y x||L(R,E) = ||y x||E ). Isto
implica
||B(1) B(0)||F L||y x||E
e como B(1) = Ay, B(0) = Ax, o resultado fica provado.
Lema 2. Seja F um espao de Banach e f : [a, b] F tal que ||ft0 ||L(R,F ) K, t [a, b].
Ento ||f (b) f (a)||F K(b a).
10
Mesmo no caso de R no basta que o mdulo da derivada seja inferior a 1. A convexidade garantida
nesse caso porque trabalhamos com intervalos (contendo eles prprios os segmentos que definem a con-
vexidade). Reforamos assim a observao de que a passagem de contractividade para norma da derivada
menor que 1 aqui obtido usando a hiptese de que o conjunto convexo.

24
Figura 1.4:

Demonstrao. (e.g. [?]).

Corolrio 1. (do Teorema do Ponto Fixo de Banach). Seja A um operador Frchet-


diferencivel em X, um conjunto no vazio, convexo e fechado num espao de Banach E.
Se A(X) X e tivermos
||A0x ||L(E,F ) L < 1, x X
as condies do Teorema do Ponto Fixo de Banach esto verificadas.

Observao 11. (i) Se considerarmos os espaos RN ou CN e se o conjunto X for limitado


ento, sendo fechado, um compacto (porque so espaos de dimenso finita) e basta
exigir ||A0x || < 1. Com efeito ||A0x || uma funo contnua de RN em R e pelo teorema de
Weierstrass atinge um mximo L < 1. No caso de se tratar de um conjunto ilimitado, exigir
||A0x || < 1 no basta! Podemos pensar como contra-exemplo a funo A(x) = 1 + x2 /(x + 1)
que verifica |A0 (x)| < 1 no intervalo X = [0, +[ e A(X) X, no entanto, esta funo no
tem qualquer ponto fixo em X. Se traarmos o grfico,
reparamos que a bissectriz uma assmptota do grfico de g, e portanto, apesar de
se aproximar da bissectriz, nunca a intersecta. Isto j no acontece para uma funo que
verifique |A0 (x)| L < 1, pois esta condio obriga a que haja interseco! (Este foi um
exemplo que encontrmos no incio do captulo 2, ficando agora claro que o mtodo do
ponto fixo nunca poderia convergir).
(ii) Mesmo ao aplicarmos este resultado em R vemos como a convexidade importante.
No caso de R a convexidade traduz-se em conexidade e significa podermos aplicar o resultado
a um nico intervalo fechado (que pode ser ilimitado), j que se considerassemos X como
sendo a reunio de dois intervalos fechados, em que o mdulo da derivada era inferior a 1,
poderamos ter um ponto fixo em cada um deles, contrariando a unicidade.
(iii) Se considerarmos uma funo g(x) definida em R tal que |g 0 (x)| L < 1 ento
existe um e um s ponto fixo em R. Um exemplo consiste em considerar g(x) = a cos(x)
com |a| < 1.

1.5.2 Comportamento assimpttico da convergncia.


Estamos agora em condies de estudar o comportamento do erro obtido pela iterao do
ponto fixo.

Proposio 5. Seja A um operador F-diferencivel numa vizinhana do ponto fixo z. Se


(xn ) a sucesso obtida pela aplicao do mtodo do ponto fixo convergente para z, ento
o erro en = z xn verifica
en+1 en
A0z 0.
||en || ||en ||

25
Demonstrao. Sendo z = Az, xn+1 = Axn , temos

||xn+1 z A0z (xn z)|| = ||Axn Az A0z (xn z)|| = o(||xn z||),

portanto ||en+1 A0z en || = o(||en ||), o que significa que

||en+1 A0z en ||
0.
||en ||

en+1
Observao 12. Este resultado mostra que a razo ||e n ||
se aproxima de A0z ( ||eenn || ). Se, no
caso real, foi imediato estabelecer que o coeficiente assimpttico de convergncia era |g 0 (z)|,
aqui no poderemos dizer que ||A0z ||.
Com efeito, o limite de ||e||en+1
n ||
||
pode no existir. Isto compreende-se pois pode acontecer
que a sucesso ||eenn || no convirja. Qual a diferena com o caso real? No caso real, quando
temos convergncia alternada, o valor |eenn | tambm no converge, pode ser 1, mas ao
calcular o mdulo, o valor |g 0 (z) |eenn | | seria sempre |g 0 (z)|. No entanto, podemos retirar
||en+1 ||
algumas informaes acerca do comportamento de ||en ||
.

Corolrio 2. Nas condies da proposio anterior, temos

||en+1 ||
lim sup ||A0z ||.
||en ||

Se A0z = 0, ento o mtodo do ponto fixo tem convergncia supralinear.

Demonstrao. Usando a proposio anterior, imediato que se A0z = 0, ento a convergn-


cia supralinear. Para obter a estimativa, designamos

||en+1 A0z en ||
n = ,
||en ||

que tende para zero, de acordo com a proposio anterior, e obtemos

||en+1 || ||en+1 A0z en || + ||A0z en || en


= n + ||A0z ( )|| n + ||A0z ||.
||en || ||en || ||en ||

Observao 13. Conclumos assim que a razo Kn = ||e||en+1n ||


||
pode oscilar, mas no limite os
0
seus valores no devem ser superiores a ||Az ||. A noo de coeficiente assimpttico de con-
vergncia pode ser generalizada considerando K = lim sup Kn e assim podemos concluir
que no mtodo do ponto fixo, quando h convergncia linear, K ||A0 ||.
z

Exemplo 9. Consideremos a funo g(x1 , x2 ) = 0.9(cos(x2 ), sin(x1 )), que tem apenas um
ponto fixo z = (0.7395, 0.6065). Comeando com x(0) = (0, 0), colocamos no grfico seguinte
os valores de Kn = ||e||en+1 ||
n ||
e verificamos que eles oscilam entre os valores 0.513 e 0.665.

26
Figura 1.5:

Figura 1.6:

Este exemplo ilustra o facto de no se poder falar no coeficiente assimpttico de con-


vergncia como o limite, mas apenas como o limite superior. Reparando que

||g(z)|| = max{0.9 |sin 0.6065| , 0.9 |cos 0.7395|} = max{0.513, 0.665} = 0.665...

conclumos que a estimativa para K coincide com o valor da norma.


Num outro exemplo consideramos g(x1 , x2 , x3 ) = 21 (cos(x1 x3 ), sin(x3 ), sin(x1 + x3 )),
com ponto fixo z = (0.4911, 0.1872, 0.3837). Comeamos com x(0) = (1, 0, 0) e reparamos
que a razo Kn fica constante, prximo de 0.27 at n < 12, depois sofre um incremento
sbito e para n > 18 vai ficar prximo de 1 (ver figura em baixo, curva contnua). Quando
temos convergncia linear e o valor Kn fica muito prximo ou maior que 1, significa que
o mtodo deixou de convergir, normalmente porque foi esgotada a preciso nos clculos.
Aumentando a preciso, verificamos que o salto desaparece (curva a tracejado), tendo sido
corrigida a impreciso numrica.
Neste exemplo Kn 0.2727, valor que mais baixo que ||g(z)|| = 0.641, como
previsto pela teoria.

1.5.3 Convergncia de ordem superior


Pelo que vimos no pargrafo precedente,

||en+1 A0z en || = o(||en ||),

e assim, quando a F-derivada A0 nula no ponto fixo z, obtivmos ||e||en+1


n ||
||
= o(1),o que
significa que a convergncia supralinear. Resta saber se podemos especificar essa con-
vergncia em termos de ordem p, definindo:

Definio 13. Dizemos que xn converge para z com pelo menos ordem de convergncia p
se
||en+1 ||
Kn[p] = K.
||en ||p
[p]
Quando Kn no tende para zero, podemos dizer que a ordem de convergncia exac-
tamente p. No entanto, o que nos interessa neste momento saber se o facto de A0z = 0
implica uma convergncia pelo menos quadrtica, como acontecia no caso real, quando a
funo era regular.
Aqui tambm ser necessrio considerar uma maior regularidade para A, de forma a
que possa ser estabelecido um desenvolvimento de segunda ordem,
1
A(x + h) = Ax + A0x h + A00x (h, h) + o(||h||2 ),
2

27
em que A00x uma funo bilinear contnua correspondente segunda derivada (no caso de
RN corresponde a considerar as matrizes hessianas).
Desta forma, obtemos
1
xn+1 z = Axn Az = A0z (xn z) + A00z (xn z, xn z) + o(||xn z||2 ),
2
e portanto, como supmos A0z = 0,
1 en+1 1 en en
||en+1 + A00z (en , en )|| = o(||en ||2 ) || 2
+ A00z ( , )|| = n = o(1),
2 ||en || 2 ||en || ||en ||

o que significa que11


||en+1 || 1 00
||A || + n K,
||en ||2 2 z
1 ||A00z ||.
ou seja, a convergncia pelo menos quadrtica e temos K 2

1.6 Mtodo de Newton


Neste contexto geral dos espaos de Banach, apenas fazemos uma breve referncia ao mtodo
de Newton, j que iremos ver a aplicao a sistemas no-lineares, que nos ir interessar
particularmente.
Tal como vimos, no estudo em R ou em C, o mtodo de Newton aparece como um caso
particular do mtodo do ponto fixo, tendo uma convergncia quadrtica desde que a funo
seja diferencivel e que a derivada no se anule.
No caso dos espaos de Banach, fazemos aparecer de forma semelhante o mtodo de
Newton, exigindo que o operador seja F-diferencivel, e que a derivada de Frchet seja invert
vel numa vizinhana da soluo. Nessas condies, podemos estabelecer a equivalncia:

Ax = 0 (A0x )1 (Ax) = 0,

porque o inverso do operador linear cont nuo A0x ser um operador linear cont nuo, e
portanto s ser nulo quando o seu argumento for nulo (neste caso o argumento Ax).
Assim, Ax = 0 equivalente a
x = x (A0x )1 (Ax)
e, dado x0 , obtemos o mtodo de Newton

xn+1 = xn (A0xn )1 (Axn ), (1.6)

que nesta generalizao tambm designado como mtodo de Newton-Kantorovich.

11
A norma ||A00z || a norma das aplicaes bilineares contnuas, definida por

||B(v, w)||
||B|| = sup .
v,w6=0 ||v|| ||w||

28
Observao 14. Podemos verificar que o mtodo de Newton-Kantorovich tem convergncia
supralinear.
Sendo Gx = x (A0x )1 (Ax), e como z = Gz, podemos ver que G0z = 0. Com efeito,

G(z + h) G(z) = z + h (A0z+h )1 (A(z + h)) z,

e reparando que A(z + h) = A(z) + A0z+h h + o(||h||) = A0z+h h + o(||h||), temos

G(z + h) G(z) = h (A0z+h )1 (A(z + h)) = h (A0z+h )1 (A0z+h h + o(||h||)).

Usando a linearidade de (A0z+h )1 ,

G(z + h) G(z) = h h (A0z+h )1 (o(||h||)) = o(||h||),

porque ||(A0z+h )1 (o(||h||))|| ||(A0z+h )1 || o(||h||) = o(||h||), admitindo que (A0z+h )1 so


limitados.
Podemos mesmo ver que se trata de convergncia quadrtica, se admitirmos que o(||h||) =
O(||h||2 ), o que poderia ser obtido considerando um desenvolvimento de segunda ordem em
A, como referido antes.

1.7 Ponto Fixo - Complementos


O mtodo do ponto fixo de Banach, quando enunciado para espaos de Frchet (espaos
mtricos completos), assume a seguinte forma:
Teorema 4. Seja K E um subconjunto no vazio e fechado de um espao de Frchet E.
Sendo G : K K uma aplicao contractiva, isto , existe uma constante L [0, 1[:

d(G(u), G(v)) Ld(u, v) u, v K,

ento existe um e um s ponto fixo z K : z = G(z), e so vlidas as estimativas de erro


do mtodo do ponto fixo:
1
d(z, xn ) Ln d(z, x0 ); d(z, xn ) d(xn+1 , xn ).
1L
Demonstrao. Exerccio ( semelhante demonstrao do mtodo do ponto fixo em es-
paos de Banach), usar a desigualdade triangular para mtricas: d(a, b) d(a, c) + d(c, b).

Observao 15. Para verificar que um conjunto K fechado, til usar a propriedade das
funes contnuas que estabelece que se a imagem um fechado a pr-imagem tambm
um fechado.
Por exemplo, sendo a norma uma aplicao contnua ||.|| : K E I R+ 0 ento se a
1
imagem I um fechado, a pr-imagem K = f (I) tambm um fechado.
1),
Teorema 5. (de Brouwer). Seja K RN um conjunto homeomorfo bola unitria B(0,
e seja G : K K uma funo contnua, ento existe pelo menos um ponto fixo de G.

29
1) e a sua
Demonstrao. O teorema original de Brouwer foi estabelecido em 1912 para B(0,
demonstrao no construtiva. Apresentamos apenas a justificao de que extensvel a
conjuntos homeomorfos a essa bola, que simples.
Nesse caso, existe um homeomorfismo H : K B(0, 1), tal que B(0,
1) = H(K). Consid-
1
eramos por isso G = H G H
1)
G : B(0, 1)
K K B(0,
1
H G H

A aplicao G composio de funes contnuas, logo contnua, e aplica-se o teorema


original de Brouwer na bola unitria, existindo um ponto fixo z = G(z) = H G H1 (z)
1). Resta agora notar que x = H1 (z) K, ponto fixo de G em K, pois
B(0,

G(x) = G H1 (z) = H1 H G H1 (z) = H1 (G(z)) = H1 (z) = x.

Observao 16. Muitas vezes o teorema de Brouwer generalizado apenas para convexos
de RN , o que um caso particular, j que todos os convexos de RN so homeomorfos
bola unitria. Esta outra formulao inclui outro tipo de conjuntos, por exemplo, todos os
estrelados.

Observao 17. No caso em que o conjunto K no homeomorfo bola unitria, por


exemplo no caso da circunferncia, ou de uma coroa circular (em R2 ), podemos definir uma
rotao dos seus pontos de forma a excluir o seu centro, que seria o ponto fixo, no sendo
vlido o Teorema de Brouwer.
O resultado de Brouwer apenas aplicvel a dimenso finita. Para estendermos o
resultado a outros espaos, de Banach, ou mesmo apenas normados, necessitamos de uma
hiptese de compacidade, que permite essa reduo a dimenso finita. Comeamos por
recordar a definio geral de conjunto compacto, aplicada a cobertura por bolas.

Definio 14. Seja K E um subconjunto de um espao normado E. Dizemos que K


compacto, quando dada uma qualquer cobertura infinita por bolas abertas B(x, ), ou seja
K xK B(x, ) possvel extrair uma cobertura finita

K N
j=1 B(xj , ).

Num espao normado, isto equivalente a exigir que as sucesses em K tm subsucesses


convergentes cujo limite est em K. Diz-se que o conjunto relativamente compacto se o
fecho for compacto.

Observao 18. Note-se que as bolas s so compactas quando o espao de dimenso


finita. Basta reparar que a sucesso definida pelos vectores da base cannica em RN est
na bola unitria, no entanto quando N isso continuaria a sucesso, no podendo ser
extrada uma subsucesso convergente.

30
Teorema 6. (de Schauder). Seja K E um conjunto compacto e convexo de um espao
normado E. Seja G : K K uma funo contnua, ento existe pelo menos um ponto fixo
de G.

Demonstrao. A demonstrao usa o teorema de Brouwer, reduzindo dimenso finita


pelo nmero finito de bolas que cobrem o conjunto compacto K. Apenas notamos que
definindo PN
j=1 xj gj (x)
g(x) = PN com gj (x) = ( ||x xj ||)B(x
j ,) (x)
j=1 g j (x)
em que a funo caracterstica, trata-se de uma funo contnua de K para o envelope
convexo definido pelo nmero finito de centros na cobertura das bolas, sendo possivel reduzir
a um problema de dimenso finita no envelope convexo definido pelos centros das bolas. A
possvel aplicar o teorema de Brouwer.

1.8 Mtodos Iterativos para Sistemas de Equaes No


Lineares
Iremos agora apresentar mtodos iterativos que permitem aproximar a soluo de sistemas
de equaes. Comeamos por apresentar o caso geral, em que se supe que o sistema
pode ou no ser linear. No caso de se tratar de um sistema linear, os mtodos iterativos
constituem apenas um complemento aos mtodos directos conhecidos da lgebra Linear.
Atravs das normas matriciais em RN , estamos nas condies de aplicar o corolrio do
teorema do ponto fixo usando a matriz jacobiana, que corresponde derivada de Frchet
em RN . Sendo assim, dado um sistema de equaes em RN

f1 (x1 , . . . , xN ) = 0,

..
.
f (x , . . . , x ) = 0,
N 1 N

que podemos escrever abreviadamente F (x) = 0, estabelecemos uma equivalncia com o


sistema na forma x = G(x), ou seja,

x1 = g1 (x1 , . . . , xN ),

..
.
x = g (x , . . . , x ),
N N 1 N

Sendo G(x) a matriz jacobiana de G calculada no ponto x,obtemos como consequncia


imediata do que vimos no captulo anterior, o seguinte teorema do ponto fixo em RN :

Corolrio 3. (do Teorema de Ponto Fixo de Banach). Seja D um conjunto no vazio,


fechado e convexo de RN .
Se G C 1 (D) e ||.|| uma norma qualquer em RN , tal que:

31
i) ||G(x)|| L < 1, x D
ii) G(D) D
ento estamos nas condies do Teorema do Ponto Fixo de Banach, logo:
i) Existe um e um s ponto fixo z D : z = G(z) ( F (z) = 0)
ii) O mtodo do ponto fixo x(n+1) = G(x(n) ) converge para z, qualquer que seja x0 D.
iii) So vlidas as estimativas

||z x(n) || L||z x(n1) || Ln ||z x(0) ||


1
||z x(n) || ||x(n+1) x(n) ||
1L
Ln
||z x(n) || ||x(1) x(0) ||
1L
Exemplo 10. Consideremos o sistema linear

3x1 + x2 = 1 x1 = 1/3 x2 /3
2x1 + 4x2 + x3 = 0 x2 = x1 /2 x3 /4
x2 + 2x3 = 2 x3 = 1 x2 /2

em que considermos G : R3 R3 definido por



1/3 0 1/3 0 x1
G(x) = 0 + 1/2 0 1/4 x2 = b + Ax
1 0 1/2 0 x3

temos ||G(x)|| = ||A|| = 5/6 < 1, e garantimos a existncia e unicidade de soluo em


R3 , bem como a convergncia do mtodo. Alternativamente, com a norma ||.||1 , tambm
obteriamos a contractividade, pois ||A||1 = 3/4 < 1. Mas como j foi referido, pode haver
casos em que seja possvel obter contractividade com uma das normas e no com a outra,
o que no impede haver convergncia em ambas.

Exemplo 11. Consideremos agora o sistema no-linear:



2x cos(x + y) = 2
3y sin(x + y) = 6

Vamos ver que existe uma e uma s soluo em R2 e que ela est em X = [ 21 , 32 ] [ 35 , 73 ].
Com efeito, se considerarmos

G(x, y) = (cos(x + y)/2 + 1, sin(x + y)/3 + 2),

a matriz jacobiana de G vem


 
sin(x + y)/2 sin(x + y)/2
G(x, y) =
cos(x + y)/3 cos(x + y)/3

32
Aplicando o corolrio do T. Ponto Fixo, vemos que ||G(x, y)||1 5/6 < 1 e conclumos que
existe uma e uma s soluo em R2 (repare-se que se escolhessemos a norma ||.|| teramos
apenas ||G(x, y)|| 1, o que revela bem que as condies so apenas suficientes e no
necessrias). Por outro lado, reparando que G(R2 ) X porque

1/2 cos(x + y)/2 + 1 3/2, e 5/3 sin(x + y)/3 + 2 7/3

conclumos que a soluo est em X. Com efeito, poderiamos aplicar directamente o


corolrio usando este X, que fechado e convexo, mas nesse caso apenas concluamos
a existncia e unicidade em X e no em R2 . Ao fim de algumas iteraes ( 40) obtemos
como soluo aproximada (0.549322733, 2.144360661).

1.8.1 Mtodo de Newton para Sistemas de Equaes


Como j referimos, uma possvel escolha de funo iteradora do mtodo do ponto fixo em R
(ou em C) a do mtodo de Newton, que tem de um modo geral convergncia mais rpida,
sendo necessrio que a funo fosse diferencivel e que a derivada no se anulasse.
No caso de RN , vamos estabelecer um mtodo semelhante, exigindo que a funo seja
C 1 e que a matriz jacobiana tenha inversa, numa vizinhana da soluo. Assim, podemos
estabelecer as equivalncias

F (x) = 0 [F (x)]1 F (x) = 0 x = x [F (x)]1 F (x)

e a funo iteradora ser, portanto, G(x) = x [F (x)]1 F (x).


Dado x(0) RN , o mtodo consistiria na iterao

x(n+1) = x(n) [F (x(n) )]1 F (x(n) ). (1.7)

No entanto, como iremos ver, o clculo de uma matriz inversa mais moroso que a
resoluo de um sistema, pelo que o mtodo de Newton para sistemas no lineares consiste
em, dada uma iterada inicial x(0) RN , resolver, em cada iterada n, o sistema linear:

[F (xn )]v = F (x(n) ) (1.8)

e definir a prxima iterada x(n+1) = x(n) + v.


Desta forma, a resoluo de um sistema no-linear pode ser conseguida (... se o mtodo
convergir!) atravs da resoluo sucessiva de sistemas lineares.

Exemplo 12. Consideremos o sistema do exemplo anterior. A matriz jacobiana de F vem


 
2 + sin(x + y)/2 sin(x + y)/2
F (x, y) =
cos(x + y)/3 3 cos(x + y)/3

inicializando com x(0) = (1, 1) ao fim de 10 iteraes obtemos um resultado com uma
preciso semelhante ao obtido no exemplo para o mtodo do ponto fixo.

33
Proposio 6. (convergncia local). Seja F C 1 (Vz ), em que Vz uma vizinhana de
uma soluo z, onde det(F (x)) 6= 0, x Vz . Ento o mtodo de Newton converge para
z, desde que a vizinhana seja suficientemente pequena e x0 Vz .

Demonstrao. Exerccio.

Teorema 7. Seja F C 2 (Vz ), em que a soluo z no um ponto crtico12 . O mtodo


de Newton quando converge para z tem convergncia pelo menos quadrtica, ou seja, existe
um K > 0 tal que
||z x(n+1) || K||z x(n) ||2 .

Demonstrao. Relembramos a frmula de Taylor para uma funo f : RN R :

1
f (x + h) = f (x) + f (x) h + h 2 f (x + h) h, para um certo ]0, 1[
2
2
onde 2 f (y) = [ xi x
f
j
] a matriz Hessiana de f calculada no ponto y.
No caso de uma funo F : RN RN , F = (f1 , ..., fN ) obtemos

1
F (x + h) = F (x) + F (x) h + h 2 fi (x + i h) h, para certos i ]0, 1[,
2

onde o termo 21 h 2 fi (x + i h) h um vector, que est apresentado na componente i.


Aplicando este resultado ao mtodo de Newton, obtemos

1
0 = F (z) = F (x(n) ) + F (x(n) ) e(n) + e(n) 2 fi (x(n) + i e(n) ) e(n)
2

em que e(n) = z x(n) o erro na iterada n. Reparando que, no mtodo de Newton,


F (x(n) ) (x(n+1) x(n) ) = F (x(n) ), ao somar e subtrair z, ficamos com

F (x(n) ) = F (x(n) ) (x(n+1) z + z x(n) ) = F (x(n) ) e(n+1) + F (x(n) ) e(n) ,

obtendo-se
1
F (x(n) ).e(n+1) = e(n) 2 fi (x(n) + i e(n) ) e(n) .
2
Como f C 2 (Vz ), supomos agora que ||2 fi (x)|| M2 , e que || [F (xn )]1 || 1
M1
, numa
vizinhana da soluo13 . Obtemos a estimativa pretendida,

M2 (n) 2
||e(n+1) || ||e || .
2M1

12
Ou seja, det(F (z)) 6= 0.
13
Como assumimos F C 2 (Vz ), e como F invertvel em z (que no ponto crtico), ento, por
continuidade, o determinante de F tambm no nulo numa vizinhana suficientemente pequena de z.

34
Observao 19. (estimativa de erro). No resultado do teorema no explicitamos que a
M2
constante K seria 2M 1
, como foi deduzido na demonstrao, porque na prtica no um
valor facilmente clculvel. No entanto, quando se executa o mtodo de Newton procedendo
ao clculo de [F (xn )]1 , a sua norma pode ser facilmente calculada, e nesse caso podemos
escrever a estimativa
1
||e(n+1) || max ||2 F (x)|| || [F (xn )]1 || ||e(n) ||2 , (1.9)
2 xV
tendo em ateno que a estimativa faz apenas sentido quando estamos muito prximo da
soluo, e portanto a vizinhana V dever ser uma bola B(z, ) com pequeno. Por outro
lado o valor da norma ||2 F (x)|| deve ser entendido como o mximo das normas matriciais
maxi ||2 fi (x)||.

1.8.2 Complementos
H ainda a possibilidade de apresentar uma condio suficiente para a convergncia, semel-
hante obtida no caso escalar, e que tambm poder servir de critrio em R. Enunciamos
apenas o resultado, cuja demonstrao pode ser encontrada em [?]:
Teorema 8. (Kantorovich). Seja D RN um conjunto aberto e convexo e F C 1 (D).
Se
(i) M1 > 0 : || [F (x)]1 || M11 , x D,
(ii) M2 > 0 : ||F (x) F (y)|| M2 ||x y||, x, y D,
M2
(iii) existe x0 D, tal que 0 = 2 || [F (x0 )]1 F (x0 ) || verifica M 1
0 < 1,

(iv) B(x0 , 0 ) D,
ento h uma nica soluo z B(x 0 , 0 ), para a qual o mtodo de Newton converge
(comeando com a iterada inicial x0 ), e verifica-se a estimativa de erro a priori,
1 n
||e(n) || (K0 )2 ,
K
M2
em que escrevemos K = 2M1
(para pr em evidncia a semelhana com o caso real).
Observao 20. Notamos que a condio (i) implica a existncia de inversa para a matriz
jacobiana (equivalente no caso real a f 0 (x) 6= 0), e serve ao mesmo tempo para definir M1
(que corresponde no caso real a min |f 0 (x)|). A condio (ii) implica a limitao dos valores
da matriz Hessiana (caso f C 2 ) e define M2 (que corresponde no caso real a max |f 00 (x)|).
0 , 0 ), note-se que,
A terceira condio permite garantir que as iteradas vo ficar na bola B(x
por exemplo, ||x1 x0 || = 2 0 0 (e corresponde condio no caso real |f (x0 )/f 0 (x0 )|
1

|b a|). A quarta condio bvia, e podemos mesmo considerar D = B(x


0 , 0 ).

Observao 21. (mtodos quasi-Newton) No caso de sistemas, h ainda um maior nmero de


variantes do mtodo de Newton que podem ser utilizadas. Um dos objectivos destes mtodos
evitar a repetida resoluo de sistemas (ver observao seguinte), outro evitar o clculo
da matriz jacobiana. Uma maneira de evitar esse clculo considerar uma aproximao das

35
derivadas parciais usando um clculo suplementar a uma distncia (para cada derivada)
tal como foi feito no caso unidimensional. ainda possvel generalizar o mtodo da secante
(cf. [?]).

Observao 22. (tempo de clculo) Enquanto que no mtodo do ponto fixo, o tempo de
clculo ser apenas T = n tG , em que tG o tempo mdio necessrio para avaliar a funo
G, no caso do mtodo de Newton, devido forma particular de G, h que considerar no
apenas o tempo de clculo de F, ou o tempo de clculo de F, como se passava no caso
real, mas tambm devemos considerar um novo tempo de clculo em cada iterao, tS , o
tempo mdio para a resoluo de um sistema linear. Assim teremos

T = n (tF + tF + tS ).

Pode acontecer que o tempo de resoluo do sistema seja muito maior que o tempo do
clculo da funo e das suas derivadas, pelo que habitual implementar tcnicas alternativas
que podem consistir em manter a matriz F (x(n) ) durante algumas iteradas subsequentes,
actualizando-a espaadamente. Isso permite reduzir consideravelmente o tempo de clculo,
j que sendo a matriz a mesma, podemos guardar a sua factorizao para resolver mais
rapidamente o sistema, como veremos na seco seguinte.

Observao 23. O Mathematica implementa o mtodo de Newton na rotina FindRoot, desde


que se inclua uma lista com as equaes e se prescreva o valor inicial para cada componente.

1.8.3 Quasi-Newton usando diferenas divididas


A computao do Mtodo de Newton envolve clculos morosos quando o valor da funo
tem um tempo de clculo longo, e para alm disso exige-se a computao da derivada,
o que pode ser inexequvel, bem como a resoluo de um sistema linear (ou a inverso
da matriz jacobiana) que tambm pode ser moroso para dimenso grande. Assim foram
surgindo mtodos que procuram aliviar esse clculo, substituindo principalmente o clculo
das derivadas na computao de

Jf (xn ) xn = f (xn ).

Um processo simples de evitar o clculo da matriz jacobiana em RN considerar a aproxi-


mao (ek so os vectores da base cannica)
f1 f1

x1
xN f1 [x h
2
e 1 ,x+ h
2
e1 ] f1 [x h
2
eN ,x+ h
2
eN ]

Jf (x) = ... .. .. .. .. ..

. . . . .
fN fN
x1
xN
fN [x h2 e1 ,x+ h2 e1 ] fN [x h2 eN ,x+ h2 eN ]

usando diferenas centradas, que converge em O(h2 ) quando h 0, podendo escolher-


se h prximo da preciso da mquina, desde que no afecte demasiado os clculos por
arredondamento. No entanto reparamos que isto exige um nmero de novas avaliaes da
funo exagerado (2N 2 ), o que torna a sua aplicabilidade reduzida em grandes matrizes.

36
fk
prefervel recorrer s diferenas progressivas xj
fk [x, x + hej ] j que apesar da aproxi-
mao ser apenas O(h), requer metade dos clculos, ou seja N 2 , que seria tambm o nmero
de clculos a efectuar para as derivadas na matriz jacobiana.
Ainda que a resoluo do sistema seja prefervel computao da inversa, podemos usar
uma aproximao da inversa iterativamente (usando o Mtodo de Newton). Comeamos
com X0 = [Jf (xn1 ) ]1 e iteramos

Xk+1 = 2Xk Xk Jf (xn ) Xk

o que nos garante convergncia quadrtica Xk [Jf (xn ) ]1 quando ||I X0 Jf (xn ) || < 12 , o
que acontece se Jf (xn ) [Jf (xn1 ) ]1 I, ou seja quando xn xn1 .
Vemos de seguida um outro mtodo, de Broyden, que generaliza o mtodo da secante,
a fim de evitar estes problemas.

1.8.4 Mtodo de Broyden


O mtodo de Broyden uma implementao alternativa do mtodo de Newton, apenas
vlido para sistemas, em dimenso finita. O mtodo pode evitar o sucessivo clculo da
matriz jacobiana, bem como o da sua inversa aplicando a identidade de Sherman-Morrison.

Lema 3. (Frmula de Sherman-Morrison). Seja A uma matriz invertvel, e u, v vectores


quaisquer (todos com a mesma dimenso), temos:

A1 uv A1
(A + uv )1 = A1 (1.10)
1 + v A1 u
Demonstrao. Basta confirmar que a inversa:

A1 uv A1 1 1
 
1 1 A uv A
(A + uv ) A = I + uv A (A + uv )
1 + v A1 u 1 + v A1 u

AA1 uv A1 + uv A1 uv A1
= I + uv A1
1 + v A1 u
1 u(1 + v A1 u)v A1
= I + uv A =I
1 + v A1 u

Consideramos a aplicao desta frmula expresso do mtodo de Newton para sis-


temas:
xn+1 = xn Jf1
(xn ) f (xn )

Usamos a notao abreviada Jk para designar a aproximao que fazemos de Jf1(xk ) .


Assim, com uk e vk so vectores convenientemente escolhidos, de forma a que

Jk+1 = Jk + uk vk

37
1
e podemos escrever Jk+1 a partir da inversa de Jk usando a frmula de Sherman-Morrison.
k Jk xk
Como explicaremos na Observao 25, Broyden props usar uk = f||x k ||
2 e vk = xk ,
(abreviamos fk = f (xk )) o que corresponde a escrever

fk Jk xk
Jk+1 = Jk + 2
(xk )> (1.11)
||xk ||

e usando a frmula de Sherman-Morrison, esta aproximao permite calcular Jn1 Jf1


(xn )
a partir de Jn1 , que depois substitumos na expresso do mtodo de Newton:

xn+1 xn Jn1 f (xn )

Atravs desta aproximao, possvel reduzir significativamente o nmero de operaes.


Observao 24. Podemos explicitar melhor a inversa Jn1 obtida pela frmula de Sherman-
Morrison, usando os uk e vk apresentados por Broyden:
k Jk xk
1
Jk1 f||x k ||
2 (xk )> Jk1
Jk+1 = (Jk + uk vk> ) = Jk1 k Jk xk
1 + (xk )> Jk1 f||x k ||
2

Jk1 (fk Jk xk )(xk )> Jk1


= Jk1
||xk ||2 + (xk )> Jk1 fk (xk )> Jk1 Jk xk
simplificando,
1 Jk1 fk xk
Jk+1 = Jk1 (xk )> Jk1 (1.12)
(xk )> Jk1 fk

Observao 25. A expresso (1.11) pode ser justificada pela semelhana com o Mtodo da
Secante.
No caso do mtodo da secante escolhamos xn+1 de forma a que fn+1 = 0, logo fn = fn ,
fn
escolhendo-se J tal que xn = J 1 fn de onde J = x n
(a razo incremental).
De forma semelhante, para substituir a iterao exacta de Newton Jf (xk ) xk = fk , quer-
emos encontrar agora uma matriz Jk+1 tal que

1
xk = Jk+1 fk
o que verificado pela expresso (1.11), pois
 
fk Jk xk >
Jk+1 xk = Jk + (xk ) xk = Jk xk + fk Jk xk = fk .
||xk ||2

Notamos ainda que h outras variantes do mtodo de Broyden.

Exemplo 13. Aplicamos o Mtodo de Broyden ao sistema


2
x1 + 2x1 + x3 = 1
x1 x2 + x3 = 1 x23
x1 x2 x3 = x22 x2

38
com a funo f (x) = (x21 + 2x1 + x3 1, x1 x2 + x3 + x23 1, x1 x2 x3 + x2 x22 ) = 0.
Comeando com x(0) = (0, 0, 0), calculamos a matriz jacobiana s na 1 iterada (que
igual do mtodo de Newton)

2x1 + 2 0 1 2 0 1
Jf (x(0) ) = x2 x1 2x3 + 1 = 0 0 1 = J0
x2 x3 x1 x3 2x2 + 1 x1 x2 x=x(0)
0 1 0

1
12 0
1 1

2 2
2
0 1 0
= J01 = 0 0 1 = x(1) = x(0) J01 f (x(0) ) = 0 0 0 1 1 = 0
0 1 0 0 1 0 0 1

A 2 iterada e restantes sero diferentes, como f1 = f (x(1) ) = (0, 1, 0) e x(0) = (0, 0, 1)



(0) 1 2 0 1 0 0
f0 J0 x
0 = 1 , v0> = 0 0 1
 
u0 = = 2 0
0 1
||x(0) ||2
0 0 1 0 1 0

portanto

2 0 1 0 0 0 2 0 1
J1 = J0 + u(0) (v(0) )> = 0 0 1 + 0 0 1 = 0 0 2
0 1 0 0 0 0 0 1 0

e pela frmula de Sherman-Morrison


1
12 0 0 0 0 1
12 0


2
2

1

0 0 1 0 0 1

0 0 1

12 0 1
14 0


J 1 u(0) (v(0) )> J 1
2 0 1 0 0 0 0 0 1 0 2
J11 = Jk1

= 0 0 1 =

k k
1+(v(0) )> J 1 u(0)

1

0 0 1

21

0 0

k
2 0 21 0

0 1 0  
1+ 0 0 1 0 0 1 1





0 1 0 0

assim, obtemos
1
1
1
0 2
4
0 0 4
x(2) = x(1) J11 f (x(1) ) = 0 0 0 1 1 = 0
1 0 12 0 0 1
2

3 61
Na terceira iterada obteramos x(3) = ( 17 , 0, 102 ) (0.17647, 0, 0.59804) o que j um valor
prximo da soluo z =(0.17557.., 0, 0.618034..), valor que seria obtido (nesta preciso) na
4 iterada do Mtodo de Newton, mas apenas na 6 iterada do Mtodo de Broyden.

39
Captulo 2

Espaos Funcionais

O contexto de espaos de Banach adequado a espaos de funes contnuas ou difer-


enciveis no sentido clssico, mas os espaosC m [a, b] sendo completos para a norma do
mximo
||u||C m [a,b] = ||u|| + ||u0 || + ... + ||u(m) || ,
no so completos quando se considera o produto interno clssico, definido em L2 (a, b) pela
integrao de Lebesgue. A possvel obter completude para essas funes, mas perdemos
a possibilidade de considerar derivadas clssicas. nesse sentido que vamos rever alguns
resultados em espaos de Hilbert, e introduzir espaos de Sobolev, H m (a, b) que esto
definidos atravs de uma noo de derivao generalizada.

2.1 Resultados em Espaos de Hilbert


Um espao vectorial com produto interno h., .i denominado pr-hilbertiano (ou euclidiano),
notando que no caso em que o corpo de escalares complexo temos
hu, vi =
hu, vi e tambm hv, ui = hu, vi,
por isso convencionamos que a conjugao se efectua no primeiro termo. Associa-se a norma
definida por ||u||2 = hu, ui , e temos (caso complexo)
||u + v||2 = ||u||2 + 2 Re hu, vi + ||v||2 (2.1)
e se hu, vi = 0 obtemos o teorema de Pitgoras ||u + v||2 = ||u||2 + ||v||2 , e daqui
consequncia imediata a igualdade do paralelogramo:
u+v 2 uv 2 1
|| || + || || = (||u||2 + ||v||2 ).
2 2 2
A existncia de produto interno num espao normado pode ser avaliada pela igualdade
do paralelogramo1 . Outro resultado conhecido do produto interno a desigualdade de
1
A igualdade do paralelogramo no verificada para a norma do mximo, basta ver este contra-exemplo
em R2 , como u = (1, 0), v = (0, 1)
u+v 2 uv 2 1 1
|| || + || || = 6= 1 = (||u||2 + ||v||2 ).
2 2 2 2

40
Cauchy-Schwarz
|hu, vi| ||u|| ||v||.
Na teoria de funes considera-se muito habitualmente o produto interno e a norma asso-
ciada em L2 (a, b),
b  b 1/2
hf, giL2 (a,b) =
f (t)g(t)dt, ||f ||L2 (a,b) = 2
f (t) dt .
a a

Quando o espao pr-hilbertiano completo (as sucesses de Cauchy convergem), designa-


se espao de Hilbert H. Relembramos que este o caso de todos os espaos de dimenso
finita (isomorfos a Rn ), ou das funes em L2 (a, b). No entanto, se considerarmosC[a, b],
e apesar do produto interno L2 estar bem definido, as sucesses de Cauchy nessa norma
L2 (a, b) podem convergir para uma funo L2 (a, b) que no contnua...

2.1.1 Sistema Normal


Consideramos a aproximao num subespao vectorial de H gerado por funes base,
S = h1 , , n i , que tem dimenso finita n, onde est definido um produto interno. Rel-
ativamente distncia definida nesse espao de Hilbert, pelo produto interno dist(u, v) =
||u v|| = hu v, u vi1/2 , a melhor aproximao que neste caso nica, dada pela
resoluo do sistema normal. Relembramos que dado f H isso corresponde a encontrar
g tal que
||f g|| = inf ||f ||
S

como S tem dimenso finita existe um mnimo, podemos encontrar uma condio para
mnimo atravs da derivada de Frchet de d(g) = ||f g||2 , fixo f. Usando (2.1),

d(g + h) d(g) = ||g + h f ||2 ||g f ||2 = 2 Re hg f, hi + ||h||2 ,


| {z }
o(||h||)

no caso real conclui-se que d0g (h) = 2 hg f, hi . Procurando g tal que d0g 0, e restringindo
o problema a S (subespao fechado), trata-se de encontrar g S tal que

hf g, hi = 0, h S

De facto, escrevendo g = a1 1 + ... + an n basta verificar a condio para as funes base


e assim hk , f gi = 0 leva ao sistema normal

h1 , 1 i h1 , n i a1 h1 , f i
hk , gi = hk , f i .. ... .. .. ..
. =

. . .
hn , 1 i hn , n i an hn , f i

que a matriz = [hi , j i]ij simtrica (hermitiana) e definida positiva (pois


notando P

a a = k ak hk , gi = hg, gi = ||g|| > 0, para qualquer g 6= 0).

41
A funo g S obtida pela soluo do sistema normal denominada projeco de f
sobre S, escrevendo-se
n
X
g = ProjS (f ) = ak k .
k=1

O erro da aproximao ||f g||, determinado imediatamente pela norma, com a soluo
g obtida.
O espao de Hilbert separvel se admite uma base ortonormada numervel 1 , , n , ,
e assim podemos escrever qualquer f H atravs da expanso de Fourier
D
X E
f= k , f k

k=1

uma generalizao da expanso em srie de Fourier. Este o limite da sucesso de somas


finitas
Xn D E
fn = k , f k
k=1

que correspondem
D Esoluo do sistema normal limitando a base, j que no caso de base
ortonormada i , j = ij e a matriz do sistema normal seria a identidade.

Teorema 9. Num espao de Hilbert definido pela base ortonormada (n ), temos a desigual-
dade de Bessel
X n D E 2
2
||f || k , f = ||fn ||2

k=1

verificando-se ||f fn ||2 = ||f ||2 ||fn ||2 , o que no caso limite d a igualdade de Parseval
D
X E 2
2
||f || = k , f .

k=1

2.1.2 Derivada generalizada


Quando f no diferencivel, podemos definir uma generalizao da noo, usando um
formulao fraca em L2 . Para esse efeito consideramos funes teste que so diferenciveis,
e tm suporte compacto, por exemplo v Ccp (a, b)

v Ccp [a, b] = {v C p [a, b] : supp(v) (a, b)}

onde supp(v) = {x (a, b) : v(x) 6= 0}.


Observao 26. Definimos tambm Ccp (R) = {v C p (R) : (av , bv ), supp(v) (av , bv )},
generalizando o caso anterior para um intervalo infinito. Desta forma, como como o suporte
est no interior de um intervalo [a, b], ser nula nos extremos v (k) (a) = v (k) (b) = 0 (com
k p).

42
Assim, para v Cc1 (R), obtemos pela regra de integrao por partes
b
0 0
hf , vi = f (t)v(t)dt = f 0 (t)v(t)dt =
a
b b
R

0
b
= [f (t)v(t)]a f (t)v (t)dt = f (t)v 0 (t)dt
a a
0
= hf, v i .

Reparamos que a expresso hf, v 0 i tem sentido clssico, qualquer que seja f localmente
integrvel. Isto permite generalizar a noo de derivada, mesmo para funes no diferen-
civeis. De forma recursiva, definimos as restantes derivadas. Para simplificar usamos o
contexto generalizado apenas em L2 (a, b) porque esse que nos interessa no contexto dos
espaos de Sobolev que so espaos de Hilbert.

Definio 15. Dizemos que L2 (a, b) derivada generalizada de ordem p de f L2 (a, b)


se verificar
h, vi = (1)p f, v (p) , v Cc (a, b).

Esta derivada est bem definida, a menos de conjunto de medida nula.

Exemplo 14. Calcular a derivada de f (x) = |x| em R. Esta funo no diferencivel em 0,


por isso vemos como pode ser definida a derivada generalizada. Dado qualquer v Cc (R),
com supp(v) (r, r), para r suficientemente grande, temos
r 0 r
0 0 0
hf, v i = |x|v (x)dx = (x)v (x)dx + xv 0 (x)dx
r r 0

(e prosseguimos no sentido clssico da integrao por partes)


0 r
= [xv]0r (1)v(x)dx [xv]r0 (+1)v(x)dx,
r 0

como [xv]0r = 0, [xv]r0 = 0 (porque v(r) = 0, j que o suporte est dentro do intervalo
(r, r)), obtemos r
0
hf, v i = sgn(x)v(x)dx = hsgn, vi
r

em que sign a funo sinal (sign(x) = 1 se x > 0), observando que o valor no ponto zero
irrelevante (conjunto de medida nula). Conclumos assim que no, sentido generalizado, a
funo sinal a derivada do mdulo, o que alis coincide com a derivada em cada um dos
troos diferenciveis.

Podemos prosseguir para uma segunda derivada? De forma semelhante obtemos


0 r
0 0
hsgn, v i = (1)v (x)dx (+1)v 0 (x)dx
r 0
= [v(0) v(r)] [v(r) v(0)] = 2v(0),

43
o que no pode ser escrito na forma de um integral no sentido clssico2 . O resultado pode
ser expresso atravs de um funcional que o delta de Dirac centrado em zero.

Definio 16. Definimos o funcional linear delta de Dirac, (v) = v(0), para v Cc (R),
ou simplesmente para v C(R). Este pode ser representado na formah, vi , entendendo
o integral neste sentido generalizado R (t)v(t)dt = v(0). Por translao definimos ainda
b
x (v) = v(x), notando que deve considerar-se a x (t)v(t)dt = v(x) apenas quando x
(a, b), se x
/ [a, b] o valor do integral deve ser considerado zero.

Pela definio, acabamos por determinar que |x|00 = sgn0 = 2, generalizando a noo
da derivada ainda para alm das funes L2 , introduzindo funcionais lineares em D =
Cc (R). Esses funcionais lineares quando contnuos (na topologia adequada a Cc (R)) so
denominados distribuies (que esto assim no dualD0 ).
(
1 (x y)
Exerccio 9. Verificar que a derivada da funo de Heaviside Hy (x) = o
0 (x < y)
delta de Dirac y .
Resoluo: Para qualquer v Cc (R)
r
Hy0 , v = hHy , v 0 i = v 0 (t)dt = v(r) + v(y) = v(y) = y (v).


y

Observao 27. Quando trabalhamos com funes descontnuas, neste contexto, o valor
pontual tem um significado desprezvel. Assim, por exemplo, a aplicao da frmula de
Barrow b
f 0 (t)dt = f (b) f (a)
a

deve ser entendida usando a noo de trao, j que o seu valor nos extremos irrelevante
na medida de Lebesgue, por se tratar de um conjunto de medida nula. A igualdade pode
ser entendida no sentido limite, pela densidade das funes C em L1 (a, b) podemos con-
siderar os diversos valores da funo ou das derivadas na fronteira enquanto limite dessas
aproximaes.

2.1.3 Espaos de Sobolev (em R)


Definio 17. Definimos

H m (a, b) = {v L2 (a, b) : v (p) (a, b) L2 (a, b)}


2
No existe nenhuma funo integrvel que permita a igualdade para qualquer v Cc (r, r), podemos
ver pela desigualdade de Cauchy-Schwarz que no h em L2 , pois isso implicaria v(0) = 0,

|v(0)| = | (x)v(x)dx| | (x)v(x)dx| ||||L2 (,) ||v||L2 (,) 0,
R

notando que ||v||2L2 (,) =
v(x)2 dx = 2v() 0, quando 0. H vrios exemplos de funes
2
x2 )1
v Cc (r, r) que no so nulas em zero, por exemplo v(x) = e( para |x| < < r.

44
trata-se de um espao de Hilbert onde podemos definir o produto interno
b b
hu, viH m (a,b) = u(t)v(t)dt + ... + u(m) (t)v (m) (t)dt,
a a

1/2
a que se associa a norma ||u||H m (a,b) = hu, uiH m (a,b) .

Teorema 10. As funes H 1 (a, b) so contnuas. A aplicao identidade de C[a, b]


H 1 (a, b), denominada injeco, e compacta.
Demonstrao. Considere-se f H 1 (a, b), ento ||f 0 ||L2 (a,b) = C < , usando a frmula de
Barrow(*)
y
|f (y) f (x)| = | f 0 (t)dt| = | hf 0 , 1iL2 (x,y) | ||f 0 ||L2 (x,y) ||1||L2 (x,y) C|y x|1/2
x

o que significa que f uniformemente contnua em [a, b].


(*) A utilizao da frmula de Barrow pode ser feita no sentido que explicamos de seguida. Consider-
emos x, y (a, b), podemos escrever

f (y) f (x) = y (f ) x (f ) = f, Hy0 Hx0



= hf 0 , Hx Hy iL2 (a,b) = hf 0 , 1iL2 (x,y) .

Para evitar deltas de Dirac podemos ainda alternativamente considerar funes teste w C (a, b) que
aproximem Hx Hy quando 0, a relao ento obtida no limite, pois

| hf, w0 i | = | hf 0 , w i | C||w ||L2 (a,b)

por um lado hf, w0 i f (y) f (x), e por outro, ||w ||L2 (a,b) |y x|1/2 .

Observao 28. As funes H 1 so contnuas em dimenso 1, mas no assim em dimenso


superior. Sendo contnuas o seu valor nas extremidades do intervalo est bem definido
enquanto limite, e por isso definimos adicionalmente um seu subespao fechado:

H01 (a, b) = {v H 1 (a, b) : v(a) = v(b) = 0},

esta noo pode ser estendida para dimenses superiores, usando a noo do trao.
O dual do espao H01 (a, b) designa-se H 1 (a, b), sendo o espao das formas lineares
contnuas, munido da norma associada
|F (v)|
||F ||H 1 (a,b) = ||F ||L(H01 (a,b),R) = sup .
v6=0 ||v||H 1 (a,b)

Exerccio 10. Escreva o problema de Sturm Liouville, um problema de valores na fronteira


em equaes diferenciais ordinrias de 2 ordem:
(
(pu0 )0 + qu = f, em (0, 1)
u(0) = u(1) = 0

(em que p, q C[0, 1], so funes positivas), no sentido generalizado em que u H01 (a, b).

45
Resoluo: Consideramos v Cc (R), e aplicamos as regras de derivao generalizada:

h(pu0 )0 + qu, vi = hf, vi h(pu0 )0 , vi + hqu, vi = hf, vi


hpu0 , v 0 i + hqu, vi = hf, vi

desta forma a igualdade fica estabelecida mesmo para funes u H 1 (a, b), pois como p, q so contnuas,
temos pu0 , qu L2 (a, b). Quanto a f, notamos que basta estar definido hf, vi o que se verifica quando
f L2 (a, b).
Iremos ver, pelo teorema de representao de Riesz, que qualquer forma linear se pode identificar com
uma funo pelo produto interno, e por isso podemos considerar mesmo f H 1 (a, b).

2.2 Teorema de Representao de Riesz


Teorema 11. Seja M H subconjunto (no vazio) convexo e fechado num espao de
Hilbert H. Dado y
/ M, existe um e um s x M que minimiza a distncia

||y x|| = inf ||y z|| = d,


zM

e habitualmente escrevemos x = ProjM (y).


Demonstrao. Consideramos uma sucesso minimizante (zn ) de elementos de M tal que

dn = ||y zn || d

aplicando a igualdade do paralelogramo, obtemos com a = y zn , b = y zm ,


(y zn ) (y zm ) 2 (y zn ) (y zm ) 2 1 d2n +d2m
||y zn ||2 + ||y zm ||2 =

|| || + || || ) = 2
| 2
{z } | 2
{z } 2
y 12 (zm +zn ) 1
(z zn )
2 m

zm +zn zm +zn
e como ||y 2
|| d (porque 2
M ), obtemos

d2n +d2m zm + zn 2 d2n +d2m


|| zm z
2
n 2
|| = 2
||y || 2
d2 0
2
ou seja, a sucesso (zn ) de Cauchy, logo converge no espao de Hilbert H, e como M
fechado, o limite da sucesso ainda pertence a M. Portanto zn x M.
Este valor x denominado a projeco de y sobre M, escrevendo-se x = ProjM (y).
At aqui apenas demonstra a existncia. Para demonstrar a unicidade recorremos a um
lema:
Lema: A tese do Teorema equivalente a 1. x M : hy x, v xi 0 (v M ).
demonstrao: () Seja v M, como M convexo, a linha de pontos entre v e x tambm pertence a
M, ou seja, para t [0, 1]
wt = x + t(v x) M
cuja distncia a y ser maior que x (ponto de mnimo):

||y x||2 ||y wt ||2 = ||y x t(v x)||2 = ||y x||2 2t hy x, v xi + t2 ||v x||2

portanto 2t hy x, v xi t2 ||v x||2 o que implica


t
hy x, v xi ||v x||2 0.
2 t0

46
porque a desigualdade foi demonstrada para um v qualquer, e t ]0, 1] (o caso t = 0 seria trivial).
() Inversamente, para qualquer v M : ||y x||2 ||y v||2 = h(y v) + (v x), (y v) + (v x)i
hy v, y vi = 2 hy x, v xi ||x v||2 0 (verificar a igualdade), e portanto ||y x|| ||y v||. 
Resta demonstrar a unicidade, o que fazemos com base no lema. Supondo haver dois
pontos de mnimo x1 , x2 M teramos:
hy x1 , v x1 i 0 v = x2 M = hy x1 , x2 x1 i 0
hy x2 , v x2 i 0 v = x1 M = hy x2 , x1 x2 i 0, e somando obtemos
hx1 x2 , x1 x2 i 0, o que implica x1 = x2 .

Corolrio do Lema

Corolrio 4. Seja S H subespao fechado num espao de Hilbert H. Dado y


/ S, o
nico x S que minimiza a distncia de y a S dado pela condio

hy x, vi = 0, v S,

ou ainda hy ProjS (y), vi = 0, v S.

Demonstrao. O subespao vectorial convexo, logo pelo teorema anterior, existe x o


ponto de mnimo, e temos pelo Lema: hy x, w xi 0, pelo que consideramos w =
v + x M , obtendo hy x, vi 0 e da mesma maneira, tomando w = x v M,
retiramos hy x, vi 0, ou seja, juntando ambas, 0 hy x, vi 0.

Proposio 7. Seja M subespao vectorial de um espao de Hilbert H, ento H = M M .

Demonstrao. (Exerccio). Dado y H, consideramos x = ProjM (y) M (que nico),


logo pelo corolrio hy x, vi = 0, v M, e assim y x M . Ou seja, estabelecemos a
soma directa
y = ProjM (y) + y ProjM (y).
| {z } | {z }
M M

Proposio 8. Seja M subespao vectorial de um espao de Hilbert H, ento (M ) = M .



Em particular, se M = {0}, como {0} = H, temos M = H. Este resultado permite
estabelecer que um subespao vectorial denso no espao todo, verificando a ortogonalidade
de cada elemento.

Relembramos que um funcional um operador que transforma elementos de um espao


de Hilbert em valores no seu corpo de escalares (consideramos normalmente ser R), quando
se trata de um funcional linear contnuo F L(H, R) = H 0 (H 0 designa-se dual topolgico
de H), tem associado a norma habitual

|F (v)|
||F ||H 0 = sup
v6=0 ||v||H

relembrando que como |F (v) F (w)| ||F ||H 0 ||v w||H se for limitado, essa limitao da
norma implica a continuidade.

47
Teorema 12. (de Representao de Riesz). Seja H um espao de Hilbert. Dado um
funcional F H 0 , existe um e um s f H :

F (v) = hf, vi v H,

e esta correspondncia uma isometria, ou seja ||f ||H = ||F ||H 0 .

Demonstrao. Seja M = Ker(F ) = F 1 ({0}) H, como F contnuo M ser fechado


(pr-imagem do fechado {0}), e como F linear M ser um subespao vectorial. No caso
em que M = Ker(F ) = H isto significaria F 0, e o resultado trivial com f = 0. Caso
contrrio, dado g
/ M (logo no nulo), definimos

g
g = g ProjM (g), g = .
||g ||

claro que para qualquer w M, g , w = hg ProjM (g), wi = 0, pelo corolrio anterior,



e portanto g M .
Dado qualquer v H, definimos = F (v)/F (g ) e w = v g M, podemos escrever
trivialmente
v = g + w,
e como, 0 = g , w = g , v
g = g , v (porque || g || = 1), ou seja



F (v)
= = g , v F (v) = F (
g ) g , v



F (
g )

g )
e portanto definindo f = F ( g temos F (v) = hf, vi (notando que isto foi demonstrado
para qualquer v H).
Finalmente, aplicando a desigualdade de Cauchy-Schwarz | hf, vi | ||f ||H ||v||H

|F (v)| | hf, vi |
||F ||H 0 = sup = sup ||f ||H
v6=0 ||v||H v6=0 ||v||H

e por outro lado (tomando v = f H) temos

| hf, f i | | hf, vi |
||f ||H = sup = ||F ||H 0 ,
||f ||H v6=0 ||v||H

juntando as desigualdades ||f ||H ||F ||H 0 ||f ||H conclui-se a isometria.

Exerccio 11. Mostre que o problema de Sturm-Liouville


(
(pu0 )0 + qu = f, em (0, 1)
u(0) = u(1) = 0

(em que p, q C[0, 1], so funes positivas), tem soluo nica em u H01 (0, 1), qualquer
que seja f H 1 (0, 1).

48
2.2.1 Transformada de Fourier e solues fundamentais
A transformada de Fourier contnua definida em todo R como um integral

F(f )() = f (x)eix dx
R

e a sua inversa dada de forma semelhante,



1 1
F (F )(x) = F ()eix d.
2 R

Verificando-se propriedades semelhantes para o produto de convoluo contnuo,

F(f g) = F(f )F(g).

Proposio 9. F() = 1, e o delta de Dirac o elemento neutro do produto de convoluo.

No caso de derivadas temos ainda a importante relao

F(f (m) ) = (i)m F(f ),

o que permite retirar a seguinte propriedade da Transformada de Fourier para operadores


diferenciais da forma
Du = a0 u + a1 u0 + ... + am u(m) ,
na forma da multiplicao por um polinmio semelhante:

F(Du) = pD (i)F(u)
= (a0 + a1 (i) + ... + am (i)m ) F(u).

2.2.2 Soluo Fundamental


Associada a um operador diferencial D, definido atrs, designamos que uma soluo
fundamental de D se verificar
D = ,
onde o delta de Dirac.
Em particular j vimos que (x) = |x|/2 a soluo fundamental de Du = u00 .
Notamos que em termos da Transformada de Fourier isto significa F(D) = 1
pD (i)F() = 1. Portanto uma soluo fundamental pode ser obtida pela inverso

= F(pD (i)1 ),

quando estiver definida.


Quando pretendemos apresentar uma soluo de uma equao diferencial, com o termo
no homogneo:
Du = f

49
basta fazer a convoluo com a soluo fundamental, ou seja

u = f,

pois Du = f implica

F(Du) = F(f ) = pD F(u) = F(f ) = pD F() F(u) = F()F(f )


| {z }
=1
= F(u) = F( f ).

50
Captulo 3

Optimizao no linear sem restries

3.1 Noes bsicas e resultados


3.1.1 Aspectos gerais
Estamos interessados na minimizao de um funcional

f : HR

onde H espao de Hilbert (ou de Banach).


Focaremos o problema de minimizao, porque o problema de maximizao o mesmo,
substituindo f por f.
No caso de minimizao sem restries, o mnimo procurado em todo o espao funcional
H, mas comeamos por definir as noes fundamentais para um conjunto H. Estas
noes so em tudo semelhantes s existentes quando H = RN .

Definio 18. Dizemos que z H um ponto de mnimo absoluto de f em H se

f (z) f (y), y

(dizemos ainda ser estrito se f (z) < f (y), y , y 6= z). Neste caso escreve-se
 
z = arg min f (y), quando f (z) = min f (y) .
y y

Por outro lado, dizemos que z H um ponto de mnimo relativo de f se existir uma
vizinhana Vz 3 z, tal que
f (z) f (y), y Vz H
(da mesma forma, dizemos ser estrito se f (z) < f (y), y Vz , y 6= z).

Observao 29. Recordamos a expanso generalizada de Taylor em temos das derivadas de


Frchet em x

f (x + h) = f (x) + fx0 (h) + 12 fx00 (h, h) + o(||h||2 ), quando ||h|| 0, (3.1)

51
onde fx0 L(H, R) a derivada de Frchet, uma forma linear, e onde fx00 B(H H, R)
a segunda derivada de Frchet, uma forma bilinear.
Quando H = RN temos fx0 (h) = h> f (x) (a derivada o gradiente) e fx00 (h, h) =
> 2
h f (x)h (a segunda derivada a matriz Hessiana 2 f (x)), ficando

f (x + h) = f (x) + h> f (x) + 21 h> 2 f (x)h + o(||h||2 )

Definio 19. Dizemos que z um ponto crtico de f se fz0 0.

Definio 20. Dizemos que a forma bilinear b semidefinida positiva se

b(h, h) 0, h H.

e dizemos que definida positiva se b(h, h) > 0 para h 6= 0.


Se existir > 0 tal que b(h, h) ||h||2 , diz-se que b coerciva (todas as formas
bilineares coercivas so definidas positivas).
Teorema 13. (condio suficiente para ponto de mximo relativo estrito)
Seja f duas vezes Frchet-diferencivel em Vz vizinhana num ponto crtico z, tal que
00
fz uma forma bilinear definida positiva. Ento x um ponto de mnimo relativo estrito
de f.
Demonstrao. Como z ponto crtico fz0 0, e temos da expanso de Taylor (3.1), para
h Vz ,
f (z + h) f (z) = 21 fz00 (h, h) + o(||h||2 ).
temos para h 6= 0, quando ||h|| 0,
Considerando h = ||h||h,
f (z + h) f (z) h)
+ o(1) > 0,
2
= 12 fz00 (h,
||h||
h)
porque fz00 definida positiva, logo fz00 (h, > 0 e no depende de ||h|| (pois ||h||
= 1).
Note-se que ||h|| 0 permite tornar o(1) to pequeno, no influenciando na soma o sinal
h).
positivo de fz00 (h,
Assim, f (z + h) f (z) > 0, para todo h 6= 0, z + h Vz , sendo z um mnimo relativo
estrito de f.
Teorema 14. (condio necessria para ponto de mnimo relativo)
Se f Frchet diferencivel numa vizinhana Vz onde z um ponto de mnimo relativo,
ento fz0 0.
Se f for duas vezes Frchet diferencivel em Vz ento fz00 ainda uma forma bilinear
semidefinida positiva.
Demonstrao. Como z um ponto de mnimo relativo f (z + h) f (z) 0 para todo
z + h Vz , e usando a expanso (3.1)
f (z + h) f (z) + o(1) f 0 (h),

0 = fz0 (h) z
||h||

52
com h = ||h||h. 0, mas tambm usando h,
Isto significa f 0 (h) 0, logo
temos f 0 (h)
z z

= 0, (h
fz0 (h) : ||h||
= 1) = f 0 (h) = 0 (h)
z

= 0, temos
O outro resultado anlogo, porque como fz0 (h)

f (z + h) f (z) h) h),
+ o(1) f 00 (h,
0 = fz00 (h, z
||h||2

h)
o que implica fz00 (h, 0 para qualquer h.

3.1.2 Convexidade
Definio 21. Dizemos que f convexa em H ( convexo) se

f ((1 )x + y) (1 )f (x) + f (y), x, y , [0, 1]

(e dizemos ser estritamente convexa se a desigualdade for estrita para x 6= y com (0, 1)).

Exemplo 15. O exemplo mais simples, em H = R, corresponde a funes f 00 (x) 0.


Para mostrarmos isso, usamos a frmula para f C 2 sendo z = (1 )x + y,
1
f (z) = (1 )f (x) + f (y) f 00 () (1 )(y x)2 ( [x; y])
2 | {z }
0
00
(1 )f (x) + f (y) (se e s se f 0)

NOTA: A frmula acima, resulta de considerar a aproximao do funcional A(f ) = f (z) com

Q(f ) = (1 )f (x) + f (y)

o que uma frmula de grau 1 com erro A(f ) Q(f ) = A(f p1 ), ou seja,

A(f p1 ) = f (z) p1 (z) = f [x, y, z](z x)(z y)

notando que z x = (y x), z y = (1 )(x y), e portanto

1
A(f ) Q(f ) = f 00 ()(1 )(y x)2 .
2
Observao 30. Num contexto mais geral, podemos ver que a Hessiana semidefinida
positiva se e s se f for convexa.

Proposio 10. Se f for convexa em , um ponto de mnimo relativo um ponto de


mnimo absoluto em . Para alm disso, se for estritamente convexa, haver um nico
ponto de mnimo absoluto, estrito.

Demonstrao. Tomando qualquer y , se z um ponto de mnimo relativo, existe


um > 0 suficientemente pequeno tal que

y = (1 )z + y Vz

53
tendo-se f (z) f (
y ). Por convexidade,

f (z) f (
y ) f ((1 )z + y) (1 )f (z) + f (y),

subtraindo, isto implica f (z) f (y), logo f (z) f (y). Por isso trata-se de um mnimo
absoluto, global.
Por outro lado, se x, z fossem pontos de mnimo absoluto distintos, com f (x) = f (z),
ento
f (x + (1 )z) < f (z) + (1 )f (z) = f (z),
mas f (z) deveria ser mnimo, o que contradio.

Exemplo 16. A norma uma funo convexa, porque sendo f (x) = ||x||,

f ((1 )x + y) = ||(1 )x + y|| (1 )||x|| + ||y|| = (1 )f (x) + f (y).

Exemplo 17. Seja


f (x) = c + a(x) + b(x, x),
onde a uma forma linear, b forma bilinear simtrica e semidefinida positiva.
Ento f convexa, porque

f ((1 )x + y) = c + a((1 )x + y) + b((1 )x + y, (1 )x + y)


= (1 )(c + a(x) + b(x, x)) + (c + a(y) + b(y, y)) (1 )b(x y, x y)
= (1 )f (x) + f (y) (1 )b(x y, x y)
(1 )f (x) + f (y)

uma vez que (1 )b(x y, x y) 0.

3.2 Equaes com pontos crticos


Uma consequncia dos resultados anteriores que para um funcional estritamente convexo,
o seu ponto de mnimo absoluto pode ser encontrado resolvendo a equao com a derivada

fx0 = 0.

Numa situao geral para funcionais regulares (F-diferenciveis), isto tambm uma condio
necessria. Por isso, uma estratgia para resolver o problema de minimizao ser procurar
os valores x que tenham derivada de Frchet nula.
No caso geral isso corresponde a resolver

z: fz0 (h) = 0, h H.

54
3.2.1 Exemplo - Mnimos Quadrados
O problema de mnimos quadrados consiste na determinao da melhor aproximao x
S H (onde S um subespao de dimenso finita do espao de Hilbert H), que minimiza
a distncia a uma certa norma H. Isto corresponde a minimizar ||x ||, ou o seu
quadrado, o funcional f : S H R

f (x) = ||x ||2 = hx , x i .

Neste caso f convexa, pois uma forma quadrtica (considere f (x) = hx , x i


no Exemplo17), por resultar da norma.
A derivada de Frchet fx0 (h) = 2 hx , hi , (exerccio), e assim

fx0 (h) = 0 hx , hi = 0

para todo o h S, e sendo S = hg1 , , gN i , ao escrever x = N


P
j=1 xj gj isto leva ao sistema
normal
XN
hx , gk i = 0 xj hgj , gk i = h, gk i .
j=1

Este o problema de mnimos quadrados, no caso linear. Contudo a dependncia nos


coeficientes desconhecidos xj pode ser no linear e a derivada de Frchet pode no ser to
simples.

3.2.2 Exemplo - dimenso finita


Quando H = RN isto resume-se a verificar a igualdade para a base cannica h = e1 , . . . , eN ,
porque a dimenso finita.
Em RN temos fx0 (h) = h> f (x), e isso corresponde a resolver e>
k f (x) = 0, para cada
k = 1, . . . , N.
Abreviadamente, isto corresponde a resolver o sistema

f (x) = 0.
Este sistema pode ser resolvido usando os mtodos habituais: Newton, Broyden, ou
iterao do ponto fixo.
Por exemplo, para o Mtodo de Newton, comeando com x(0) , encontramos x(1) =
x(0) + h, resolvendo o sistema linear

[2 f (x(k) )]h = f (x(k) )

Esta abordagem terminaria por aqui o assunto, j que o enquadraramos no contexto


da resoluo de equaes.
No entanto, esta no a melhor abordagem. O mtodo de Newton poder ser usado
para encontrar a direco de descida, mas ao longo dessa direco no claro que o valor
dado pelo mtodo habitual seja a melhor escolha.
Os mtodos de optimizao so assim diferentes dos mtodos de resolver equaes, ainda
que possam ser relacionveis, e notamos ainda que, no caso em que f (x) = 0 tenha soluo,

55
- minimizar ||f (x)|| ou ||f (x)||2 equivale a encontrar a raiz, pois o mnimo ser zero, e
o ponto de mnimo verifica
||f (x)|| = 0 f (x) = 0.

3.3 Limitao computacional na optimizao global


No caso de funes estritamente convexas vimos que o mnimo absoluto nico, mas quando
a funo f suficientemente geral, pode ser computacionalmente impossvel encontrar o
ponto de mnimo.
Para simplificarmos a abordagem, tomemos o caso unidimensional, em que queremos
apenas encontrar
f (z) = min f (y)
y[a,b]

Para esse efeito, consideramos um algoritmo geral A que devolve a iterada xk+1 baseado
na funo e num conjunto de pontos anteriores.

xk+1 = A(f, xk , , x0 ),

e este algoritmo pode incluir informao das derivadas, f (m) (xj ), tambm.
Apenas exclumos aqui algoritmos triviais que produzem uma sucesso densa de pon-
tos, para varrer o intervalo, e que so ineficazes. So ineficazes, porque por exemplo por
bisseco sucessiva, isso implicaria considerar 1 + 2M clculos para avaliar o intervalo [0, 1]
com espaamento 2M . Assim, para uma inspeco com erro inferior a 0.001 seriam precisos
1000 clculos de f, o que extremamente ineficaz se o clculo de f for moroso.
Observao 31. De qualquer forma, os algoritmos triviais podem ser usados para uma
funo genrica f que tenha um clculo rpido. Por exemplo, se for possvel computar um
milho de vezes f em menos de um segundo, ento a simples avaliao de f (xn ) no intervalo
[0, 1] com
xn = n 106 (n = 0, . . . , N = 106 )
poder permitir encontrar o ponto de mnimo com erro inferior a 106 . Apesar de serem
altamente ineficazes, este algoritmos no devem deixar de ser considerados, quando pouco
se sabe de f.
No entanto, mesmo este procedimento no garante que
N
f (xm ) = min f (xk )
k=0

seja uma boa aproximao de min f (x) porque esse mnimo pode estar longe do xm obtido,
axb
especialmente quando f tem um grande comportamento oscilatrio e a lista de pontos
pequena.
De qualquer forma, o algoritmo de construir uma lista densa de pontos converge, desde
que a funo seja contnua. Simplesmente demasiado ineficaz, e s serve normalmente
para detectar um intervalo onde se aplica outro mtodo mais eficaz.

56
Teorema 15. No h nenhum algoritmo eficaz A que permita obter o mnimo de f para
qualquer f C [a, b].
Demonstrao. Considere a sucesso de pontos (xn ) dada pelo algoritmo A e assuma que
xn x, onde x [a, b] um mnimo absoluto de uma funo f C [a, b]. Ento podemos
considerar uma funo f que coincide com f em todos os pontos da sucesso (xn ) at s
derivadas de ordem m, mas que tem um ponto de mnimo absoluto em x 6= x.
Esta funo f pode ser facilmente considerada diferente em [ x , x + ] [a, b] tal que
xn x , x + ] (porque o algoritmo eficaz e no gera um conjunto denso em [a, b]).
/ [
Por isso como f = f excepto no intervalo (x , x + ), tomando f( x) < f (x), o algortimo
produzir os mesmos resultados, ignorado o intervalo ( x , x + ), e cair no ponto de
mnimo de f que no o de f. Ou seja, como xn x , x + ], a sucesso
/ [
xk+1 = A(f, xk , , x0 ) = A(f, xk , , x0 )
converge para x, que no x, ponto de mnimo para a funo f.
Observao 32. Exclui-se da situao anterior o caso em que a funo convexa, porque
no haveria dois mnimos relativos, e exclui-se tambm o caso em que a funo analtica.
No caso em que a funo analtica, a sucesso de pontos (xn ) definiria a funo de forma
nica, e no seria possvel construir o contraexemplo.

3.4 Problemas de optimizao unidimensional


Para alm do interesse prprio, importante o problema de minimizao em R ou num
intervalo, pois a maioria dos mtodos ir usar a pesquisa linear (line search), o que significa
encontrar um mnimo na linha dada por uma certa direco, o que se trata de um problema
unidimensional.
claro que poderamos considerar vrios mtodos no caso unidimensional, por exemplo
procurando os pontos crticos,
x : f 0 (x) = 0,
por um mtodo habitual (bisseco, secante, ponto fixo ou Newton), mas iremos considerar
aqui a Pesquisa pela Seco de Ouro, e a Aproximao Quadrtica, que evitam esse clculo.

3.4.1 Pesquisa seccional


A ideia destes mtodos semelhante do mtodo da bisseco. Assumimos que a funo
contnua f tem um nico mnimo relativo estrito z (a, b), o que pode ser garantido
reduzindo o intervalo suficientemente, at que a funo seja a estritamente convexa.
Construmos uma sucesso que converge para esse ponto de mnimo absoluto z.

Algoritmos Seccionais
Consideramos a0 = a, b0 = b, e um qualquer c0 = c (a, b) que ter menor valor
(porque os extremos no so o mnimo).
Definimos o tripleto (ak , ck , bk ), onde o ponto de mnimo deste conjunto est em ck .
A iterao consiste em tomar um novo dk (ak , bk )\{ck } e test-lo:

57
Caso ck < dk .

Se f (dk ) < f (ck ) ento (ak+1 , ck+1 , bk+1 ) = (ck , dk , bk ), seno (ak+1 , ck+1 , bk+1 ) =
(ak , ck , dk ),

Caso dk < ck .

Se f (dk ) < f (ck ) ento (ak+1 , ck+1 , bk+1 ) = (ak , dk , ck ), seno (ak+1 , ck+1 , bk+1 ) =
(dk , ck , bk ).

Isto significa que ou dk um novo ponto de mnimo e fica no meio do tripleto, ou


ento passa a ser fronteira do novo intervalo. Em qualquer caso, reduzimos a dimenso do
intervalo, o que permite provar a convergncia.
Proposio 11. A sucesso (ck ) converge para o nico ponto de mnimo estrito z (a, b).
Demonstrao. Basta ver que z (ak , bk ), pois por construo ck (ak , bk ) e |ak bk | 0,
portanto z ck 0.
Com efeito, se z / (ak , bk ) h tambm um ponto de mnimo relativo em (ak , bk ), pois
f (ck ) menor, e isso contradiz a hiptese de haver apenas um ponto de mnimo relativo.
Observao 33. A escolha de dk poderia ser qualquer, uma hiptese poderia ser usar a
bisseco. Por exemplo, no intervalo [0, 1] comevamos com o tripleto (0, 21 , 1), e definindo
d0 = 14 poderamos ter a sorte de f ( 14 ) < f ( 12 ) com um novo tripleto (0, 14 , 12 ) num intervalo
de comprimento 0.5, mas caso contrrio o tripleto seria ( 14 , 21 , 1) com um comprimento 0.75.
A questo de considerar uma escolha que mantenha o comprimento dos intervalos em ambas
as circunstncias respondida pelo nmero de ouro!

Algoritmo da Seco de Ouro (Golden section search)


Para a melhor opo na seco convm que o comprimento do novo intervalo no de-
penda do resultado do teste.
Para simplificar suponhamos que [a, b] = [0, 1], e que c > d.
Ento o novo intervalo tem comprimento c ou 1d, e queremos que sejam iguais c = 1d,
e se mantenha a proporo 1c = dc , ou seja:
d 1c 1c
c= = = = c c2 + c 1 = 0
c c c
pelo que se obtm o nmero de ouro

1 + 5
c= = = 0.618034...
2
Por isso, iremos considerar se dk > ck
ck = ak + (1 )(bk ak ), dk = ak + (bk ak ),
Com esta escolha, como bk ck = (bk ak ) = dk ak , temos
|ak+1 bk+1 | = |ak bk | = |an bn | = n |a b|
ou seja, uma convergncia linear com coeficiente assimpttico .

58
3.4.2 Aproximao Quadrtica
Uma outra estratgia consiste em considerar que f se comporta como uma funo quadrtica
prximo do mnimo, e aproximar por interpolao em trs pontos calculados antes
(xn2 , f (xn2 )), (xn1 , f (xn1 )), (xn , f (xn ))
o polinmio interpolador fica
xxn1 xxn2 xxn2 xxn1
p2 (x) = xxn
xn2 xn1 xn2 xn
f (xn2 ) + xxn
xn1 xn2 xn1 xn
f (xn1 ) + xn1 xn2 xn xn1
f (xn ).
Resolvendo p02 (xn+1 ) = 0, obtemos
1 f (xn )(x2n1 x2n2 ) + f (xn1 )(x2n2 x2n ) + f (xn2 )(x2n x2n1 )
xn+1 =
2 f (xn )(xn1 xn2 ) + f (xn1 )(xn2 xn ) + f (xn2 )(xn xn1 )
que o ponto de mnimo de p2 e que servir para aproximar o ponto de mnimo de f.
De certa forma semelhante ao mtodo da secante para f 0 , mas evita o clculo das
derivadas, e tal como o mtodo da secante apresenta uma convergncia supralinear. Tam-
bm h formas de circunscrever as iteraes a um intervalo, como o caso do mtodo de
Brent, por adaptao do Mtodo Regula Falsi.

3.5 Mtodos de Descida


Vamos agora considerar uma grande classe de mtodos denominados mtodos de descida.
De um modo geral, podemos considerar um mtodo dado por um algoritmo com uma funo
A : , e um procedimento iterativo,
xn+1 = A(xn )
comeando com um x0 inicial. Este um procedimento semelhante iteraco do ponto
fixo, mas agora associando uma funo de descida Z : R, tal que
Z(A(x)) < Z(x), x 6= z,
onde z so pontos de mnimo estritos em . A funo de descida pode coincidir com f,
e no caso dos pontos de mnimo de Z so os mesmos de f. Uma outra possibilidade ser
considerar Z = |f |2 , mas nesse caso os pontos de mnimo de Z sero os pontos crticos
de f (notando que o ponto de mnimo coincide com o ponto crtico quando f convexa).
Teorema 16. ( convergncia global). Se A contnua e compacto, ento a sucesso
(xn ) dada pelo mtodo de descida, tem subsucesses que convergem para pontos de mnimo
estritos.
Demonstrao. Como (xn ) uma sucesso num compacto ento podemos extrair sub-
sucesses convergentes.
Sendo (xnk ) uma dessas subsucesses temos xnk x, e como A contnua,
xnk = A(xnk 1 ) A(x),
e por unicidade do limite, A(x) = x. Portanto Z(A(x)) = Z(x), e x ser um ponto de
mnimo estrito, pois Z(A(x)) < Z(x) nos restantes casos.

59
Exemplo 18. The golden ratio search is a descent method. Consider Z = f, and we
may consider A to be the algorithm that constructs the sequence (cn ), since f (cn+1 ) =
f (A(cn )) < f (cn ) if cn 6= z, where z is the unique minimum point in X = [a, b].

Definio 22. Algoritmos de Pesquisa Linear. Considere-se a iterao

xn+1 = xn + n dn ,

onde dn denominada direco de descida. Escolhendo n > 0 para aproximar o ponto de


mnimo de
g() = f (xn + dn )
temos um mtodo de descida, baseado numa pesquisa linear ao longo da semi-recta

S(xn , dn ) = {xn + dn : 0}.

A pesquisa exacta se procurarmos que n seja o ponto de mnimo em S(xn , dn ), caso


contrrio, diz-se inexacta.

Observao 34. Estes algoritmos de pesquisa linear so mtodos de descida (com Z = f ),


porque
f (xn+1 ) = f (xn + n dn ) = g(n ) < g(0) = f (xn ).
A nica condio que precisamos para garantir uma descida que o n escolhido verifique
g(n ) < g(0). Notamos que a determinao exacta do mnimo pode ser ineficaz computa-
cionalmente.

Proposio 12. Para uma funo Frchet-diferencivel, se fx0 n (dn ) < 0 ento dn uma
direco de descida.

Demonstrao. Basta notar que pela expanso de Taylor

f (xn+1 ) = f (xn + dn ) = f (xn ) + fx0 n (dn ) + o(||dn ||)

e assim, como > 0, quando 0

f (xn+1 ) f (xn )
= fx0 n (dn ) + o(||dn ||) < 0

o que significa que f (xn+1 ) < f (xn ).

Observao 35. No que se segue iremos considerar apenas o caso H = RN , e portanto,


exigimos apenas que
f (xn )> dn < 0.

60
3.5.1 Mtodo do Gradiente
O exemplo mais conhecido de mtodo de descida o Mtodo do Gradiente ou do Mximo
Declive (steepest descent), que corresponde a escolher a direco do gradiente como descida

dn = f (xn ),

fazendo a pesquisa linear nessa direco.

Proposio 13. O Mtodo do Gradiente um mtodo de descida.

Demonstrao. Basta notar que f (xn )> dn = f (xn )> f (xn ) = ||f (xn )||2 < 0, at
que f (xn ) = 0, sendo a ponto crtico e xn seria o mnimo.

Exemplo 19. Considere a funo f (x) = e2x1 + ex1 x2 + 4x2 , onde temos

f (x) = (2e2x1 ex1 x2 , ex1 x2 + 4).

Neste caso fcil determinar os pontos crticos porque de f (x) = (0, 0) temos
( ( ( (
2e2x1 ex1 x2 = 0 2e2x1 = 4 x1 = 12 log 2 x1 = 12 log 2
4 ex1 x2 = 0 ex1 x2 = 4 12 log 2 x2 = 2 log 2 x2 = 23 log 2

Este x = 12 (1, 3) log 2 um ponto de mnimo estrito, conforme podemos ver pela matriz
Hessiana
4e 1 + ex1 x2 ex1 x2
 2x   
12 4
f (x) = =
ex1 x2 ex1 x2 |{z} 4 4
x= 12 (1,3) log 2

que definida positiva.


Consideremos agora o Mtodo do Gradiente com pesquisa exacta comeando com x(0) =
(0, 0). Ento
x(1) = x(0) 0 f (x(0) ) = 0 (1, 3)
e 0 minimiza g() = f (, 3) = e2 + e4 12. Como

g 0 () = 2e2 + 4e4 12 = 0

equivalente a 4 2 2/ 12 = 0, com = e2 .

3.5.2 Mtodo de Newton


Consideramos agora um novo desenvolvimento de Taylor para o mtodo de Newton

2 (n) > 2
f (x(n+1) ) = f (x(n) ) + d(n) f (x(n) ) + (d ) f (x(n) )d(n) + o( 2 )
2
e tomamos a direco do Mtodo de Newton

d(n) = [2 f (x(n) )]1 f (x(n) ),

61
o que equivalente a resolver o sistema linear

[2 f (x(n) )]d(n) = f (x(n) ).

Isto leva seguinte igualdade ( > 0),

f (x(n+1) ) f (x(n) )
= d(n) f (x(n) ) + (d(n) )> 2 f (x(n) )d(n) + o()
2
= f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) )

(d(n) )> 2 f (x(n) )[2 f (x(n) )]1 f (x(n) ) + o()
2
= f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) )

+ f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) ) + o()
2

= (1 + )f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) ) + o()
2
Quando a Hessiana uma matriz definida positiva, tambm a sua inversa e temos

f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) ) > 0,

quando x(n) no um ponto crtico. Assim, quando 0 < < 2, suficientemente pequeno,
obtemos um mtodo de descida.
De novo podemos usar um algoritmo de pesquisa linear para obter n > 0, que minimize

g() = f (x(n) + d(n) ),

ou pelo menos, tal que f (x(n+1) = g(n ) < g(0) = f (x(n) ), para garantir a descida no caso
da pesquisa linear inexacta.

Proposio 14. Para f C 2 , o mtodo de Newton com pesquisa linear tem pelo menos
convergncia quadrtica.

Demonstrao. Trata-se de uma simples consequncia da convergncia quadrtica do Mtodo


de Newton clssico, quando aplicado a f (x) = 0. A iterao de Newton clssica

x(n+1) = x(n) [2 f (x(n) )]1 f (x(n) ),

o que corresponde a tomar n = 1. Por isso se considerarmos n tal que g(n ) < min{g(0), g(1)},
temos um mtodo de descida melhor que o clssico que tinha j convergncia quadrtica.

No Mtodo de Newton para garantir a descida precisamos que a matriz Hessiana seja
definida positiva nos pontos de clculo. Se isto esperado perto do ponto de mnimo estrito,
pode no ser verdade em pontos mais distantes, por isso vamos considerar uma variante,
que corresponde ao Mtodo de Levenberg-Marquardt.

62
3.5.3 Mtodo de Levenberg-Marquardt
No Mtodo de Levenberg-Marquardt consideramos um parmetro n 0 e a direco

d(n) = [n I + 2 f (x(n) )]1 f (x(n) ).

Notamos que se n = 0 o Mtodo de Newton, e quando n comporta-se como o


Mtodo do Gradiente, porque
1 2
n d(n) = [I + f (x(n) )]1 f (x(n) ) f (x(n) ).
n
Por isso, o Mtodo de Levenberg-Marquardt pode ser visto como uma combinao convexa
dos mtodos do gradiente e de Newton. Ser melhor considerar n = 0 quando estamos
prximos do ponto de mnimo, para beneficiar da convergncia quadrtica do Mtodo de
Newton, caso contrrio melhor tomar um n > 0 tal que a matriz

M = n I + 2 f (x(n) )

seja definida positiva.


Para esse efeito podemos efectuar um decomposio de Cholesky da matriz M = LL> ,
e us-la para resolver o sistema

[n I + 2 f (x(n) )]d(n) = f (x(n) ) LL> d(n) = f (x(n) ).

Observao 36. Uma outra possibilidade considerar a diagonal da matriz hessiana ao invs
de I.

Exerccio 12. Mostre que o Mtodo de Levenberg-Marquardt tambm um mtodo de


descida.

3.6 Pesquisa Linear Inexacta


computacionalmente ineficaz efectuar uma pesquisa linear exacta em cada passo da it-
erao, j que s acidentalmente o mnimo iria estar ao longo dessa direco. Em vez
disso, podemos prosseguir usando uma pesquisa no exacta, procurando apenas aproveitar
a descida nessa direco.

3.6.1 Regra de Armijo


Retomando a funo g() = f (x(k) + d(k) ), um valor > 0 considerado no demasiado
grande se verificar a Regra de Armijo:

g() g(0) + g 0 (0),

dado um (0, 1) fixo. Podemos comear com 0 > 0, e definir um factor multiplicativo
> 1, tal que n no seja demasiado pequeno.

63
O algoritmo reduz-se a:
Se
g(k ) g(0) + g 0 (0)k ,
tomamos k+1 = k , at que a regra no se verifique (a usamos n = k ).
Por outro lado se comearmos com 0 que no verifica a regra de Armijo, tomamos
< 1 e procedemos de forma semelhante

k+1 = k ,

at que a regra seja verificada.

Observao 37. Teste de Goldstein. semelhante regra de Armijo agora com (0, 21 ),
e com
g(0) + (1 )g 0 (0) < g() g(0) + g 0 (0).
A primeira desigualdade adicionada para que no seja demasiado pequeno.

Exemplo 20. Vejamos um exemplo para aplicao da Regra de Armijo na pesquisa linear
inexacta associada ao mtodo do gradiente.
Seja
f (x) = (x1 + 2)2 + (x2 1)2 + 3x1 + 2,
e comeamos com x(0) = (0, 0). Como
 
7 + 2x1
f (x) = ,
2 + 2x2

(0) (0) 7
a direco do gradiente d = f (x ) = . Temos assim
2

g() = f (x(0) + d(0) ) = f (7, 2) = (7 + 2)2 + (2 1)2 21 + 2.

Aqui fcil obter g 0 () = 53(2 1), dando = 1


2
como soluo e levando a

7
x(1) = x(0) + d(0) = ( , 1)
2
que imediatamente o ponto de mnimo da forma quadrtica f.
Porm aqui o objectivo ilustrar a Regra de Armijo.
Neste caso g 0 (0) = 53, e tomando = 0.5, comeando com 0 = 1 obtemos

g(0 ) (g(0) + g 0 (0)0 ) = 26.5 > 0,

o teste falha e consideramos 1 = 0 com = 0.5 < 1, levando a 1 = 0.5, e esta j a


soluo.

64
3.6.2 Teste de Wolfe
O tese de Wolfe usa alternativamente
g 0 () (1 )g 0 (0)
para assegurar que no demasiado pequeno.
Note-se que quando consideramos g(0) g() + g 0 ()(0 ) ento
g() g(0) g 0 ()
e a primeira desigualdade fica
g(0) + (1 )g 0 (0) < g() (1 )g 0 (0) < g() g(0)
o que leva (aproximadamente) ao teste de Wolfe
(1 )g 0 (0) < g() g(0) g 0 ().

3.7 Sistemas lineares e Direces Conjugadas


Podemos relacionar a minimizao de uma funo quadrtica soluo de sistemas lineares,
pois o mnimo de
1
f (x) = x> Ax b> x + c
2
a soluo do sistema linear Ax = b, onde A um matriz simtrica e definida positiva.

3.7.1 Mtodo do gradiente para sistemas lineares


Neste caso temos
d(n) = f (x(n) ) = b Ax(n)
e a escolha optimal para n dada pela soluo de
d
0= f (x(n) + d(n) ) = d(n) f (x(n) + d(n) )
d
= d(n) (b A(x(n) + d(n) ))
= d(n) (b| {z
Ax(n)} d(n) Ad(n) )
d(n)

de onde temos d(n) Ad(n) = d(n) d(n) e por isso


||d(n) ||2
n = .
||d(n) ||2A
Assim, o mtodo do gradiente aplicado minimizao de formas quadrticas leva-nos
expresso
||d(n) ||2
x(n+1) = x(n) + (n) 2 d(n)
||d ||A
onde d(n) = b Ax(n) no caso de sistemas lineares. Este d(n) = b Ax(n) habitualmente
designado resduo do sistema.

65
Observao 38. O valor dado para n no caso de sistemas lineares pode ser adoptado como
iterada inicial no mtodo do gradiente (verso exacta ou inexacta), usando

d(n) = f (x(n) ), A = 2 f (x(n) ),

pois na vizinhana do ponto de mnimo a funo comporta-se como uma forma quadrtica
onde a matriz hessiana A.
Assim, por vezes o mtodo do gradiente mais simplesmente tomado como

x(n+1) = x(n)
f (x(n) )

usando
||f (x(n) )||2

=
||f (x(n) )||2[2 f (x(n) )]
como aproximao do valor exacto n , algo que poder ser melhorado usando os algoritmos
de pequisa linear inexacta (Armijo, Goldstein, ou Wolfe).
Proposio 15. O mtodo do gradiente para minimizao quadrtica verifica a estimativa
de erro
max min (n)
||e(n+1) ||A ||e ||A
max + min
exibindo convergncia linear.
Demonstrao. [ver Luenberger]

3.7.2 Mtodo das direces conjugadas


Ao invs de usarmos as direces do gradiente, podemos usar direces ortogonais relativa-
mente ao produto interno definido por

hu, viA = u> Av,

j que A uma matriz definida positiva e simtrica.


Definio 23. Quando hu, viA = 0 as direces u e v so designadas A-conjugadas (ou
A-ortogonais).
Tal como no processo de ortonormalizao de Gram-Schmidt, podemos definir direces
A-conjugadas
d(0) , . . . , d(N 1)
basedas nas direces do gradiente, que so resduos (n = 0, . . . , N 1),

r(n) = f (x(n) ) = b Ax(n) .

De forma semelhante, dada a direco conjugada d(n) , o optimal n para a minimizao


quadrtica dado por
d
0= f (x(n) + d(n) ) = d(n) (b| {z
Ax(n)} d(n) Ad(n) )
d
r (n)

66
d(n) r (n)
ou seja n = ||d(n) ||2A
, e o Mtodo das direces conjugadas fica

d(n) .r(n) (n)


x(n+1) = x(n) + d .
||d(n) ||2A

Teorema 17. O mtodo das direces conjugadas atinge a soluo depois de N iteraes
(onde N a dimenso da matriz A).

Demonstrao. Considere o erro na iterada e(n) = x x(n) , o que d imediatamente

d(n) .r(n) (n)


e(n+1) = e(n) n d(n) = e(n) d ,
||d(n) ||2A

ou seja
e(k) = e(k1) k1 d(k1) = = e(0) 0 d(0) k1 d(k1) .
Por outro lado podemos escrever e(0) na base A-conjugada

e(0) = p0 d(0) + + pN 1 d(N 1) ,

onde pk a A-projeco


e(0) , d(k) A
pk = .
||d(k) ||2A

Para concluir que e(N ) = 0, fica suficiente mostrar que pk = k ,




(k)
e(0) , d(k) A e + 0 d(0) + + k1 d(k1) , d(k) A
pk = =
||d(k) ||2A ||d(k) ||2A

(k) (k)
e ,d A + 0 d(k) Ae(k) d(k) (b Ax(k) ) d(k) r(k)
= = = = = k ,
||d(k) ||2A ||d(k) ||2A ||d(k) ||2A ||d(k) ||2A

para k = 0, . . . , N 1.

Observao 39. Para construir as direces conjugadas a partir das direces do gradiente
r(k) , usamos o processo de Gram-Schmidt, comeando com

d(0) = r(0) ,

k1

(j) (j)
(k) (k)
X r , d A (j)
d =r d
j=0
||d(j) ||2A

o que leva a
||r(k) ||2 (k1)
d(k) = r(k) + d .
||r(k1) ||2

67
3.8 Mtodos dos Gradientes Conjugados
As direces conjugadas podem ser aplicadas ao mtodo do gradiente, usando

r(k) = f (x(k) ),

mas agora notamos que algumas expresses que seriam equivalentes no caso quadrtico
podem deixar de o ser neste caso mais geral. Do assim origem a mtodos diferentes, por
exemplo:
- as variantes Fletcher-Reeves e Polak-Ribire.

3.8.1 Mtodos de Fletcher-Reeves e Polak-Ribire


O Mtodo de Fletcher-Reeves usa as direces definidas recursivamente por

||r(k) ||2 (k1)


d(k) = r(k) + d ,
||r(k1) ||2

enquanto o Mtodo de Polak-Ribire usa a expresso

(r(k) r(k1) ) r(k) (k1)


d(k) = r(k) + d ,
||r(k1) ||2

que era equivalente primeira no caso quadrtico.


Observao 40. Uma outra forma equivalente leva ao mtodo de Hestenes-Stiefel

(r(k) r(k1) ) r(k)


d(k) = r(k) + d(k1) ,
(r(k) r(k1) ) d(k1)

3.8.2 Implementao como mtodos de descida


Os mtodos anteriores apenas nos do as direces de descida, seguindo as expresses que
se obtinham para o caso quadrtico.
Essas direces devem ser consideradas na forma

x(k+1) = x(k) + k d(k)

onde o k deve ser encontrado pela pesquisa linear com a funo habitual

g() = f (x(k) + d(k) ),

usando um pesquisa exacta ou inexacta, conforme descrito anteriormente.

68
3.9 Mtodos Quasi-Newton
H diversas formas de evitar o clculo da matriz hessiana para a implementao do mtodo
de Newton. Assim, no teremos o mtodo de Newton, mas suas aproximaes, que so
chamadas Mtodos Quasi-Newton.
Tal como no caso do Mtodo de Broyden para resolver sistemas no lineares, podemos
considerar uma aproximao do tipo secante, usando uma matriz B em vez da hessiana
H = 2 f (x(k) ), que verifica

f (x(k+1) ) = f (x(k) ) + H(x(k+1) x(k) ) + o(||hx(k) ||)


(k)
com hx = x(k+1) x(k) .
O mtodo de Newton clssico toma x(k+1) tal que f (x(k+1) ) = 0.
Assim, em vez de fixarmos a hessiana H, procuramos uma matriz Bk tal que

f (x(k+1) ) f (x(k) ) = Bk (x(k+1) x(k) ).

Duas escolhas habituais para Bk surgem dos algoritmos DFP e BFGS, que so casos
particulares destes mtodos de Broyden.

3.9.1 Mtodos BFGS e DFP


(k)
Considere-se y (k) = f (x(k) ), e hy = y (k+1) y (k) .
A variante DFP (Davidon-Fletcher-Powell) considera
! !
(k) (k) (k) (k) (k) (k)
hy [hx ]> hx [hy ]> hy [hy ]>
Bk+1 = I (k) (k) Bk I (k) (k) + (k) (k)
[hy ]> hx [hx ]> hy [hy ]> hx

onde a sua inversa dada pela frmula de Sherman-Morrison


(k) (k) (k) (k)
1 hx [hx ]> Bk1 hy [Bk1 hy ]>
Bk+1 = Bk1 + (k) (k)
(k) (k)
.
[hy ]> hx [hy ]> Bk1 hy

Isto pode ser usado numa pesquisa linear

x(k+1) = x(k) + k Bk1 (f (x(k) )),

onde a direco
d(k) = Bk1 f (x(k) ),
e onde k procurado minimizar g() = f (x(k) + d(k) ), por pesquisa exacta ou inexacta.
Alternativamente podemos considerar a variante BFGS (Broyden-Fletcher-Goldfarb-
Shanno)
(k) (k) (k) (k)
hy [hy ]> Bk hx [Bk hx ]>
Bk+1 = Bk + (k) (k) (k) (k)
,
[hy ]> hx [hx ]> Bk hx

69
com inversa dada pela frmula de Sherman-Morrison
! !
(k) (k) > (k) (k) > (k) (k)
1 h x [hy ] 1 h y [hx ] hx [hx ]>
Bk+1 = I (k) (k) Bk I (k) (k) + (k) (k)
[hx ]> hy [hy ]> hx [hy ]> hx
e um processo semelhante considerado.
Observao 41. Estes dois mtodos podem ser agrupados numa combinao convexa (famlia
de Broyden)
BF GS DF P
Bk+1 = (1 k )Bk+1 + k Bk+1
com um parmetro fixo ou varivel k [0, 1]. A combinao convexa tanto pode ser usada
directamente em Bk ou na sua inversa Bk1 , dependendo na forma de avaliao de d(k) (ou
seja, resolver um sistema, ou calcular a inversa).

3.9.2 Mtodo de Gauss-Newton (mnimos quadrados no lineares)


Um caso conhecido o problema de mnimos quadrados com uma funo no linear
F : RN RM
e onde o objectivo minimizar
1 1
f (x) = ||F (x)||2 = hF (x), F (x)i
2 2
Exemplo 21. Aproximar g(t) com funes da forma x1 ex2 t , ou seja temos que minimizar
F (x1 , x2 )(tk ) = x1 ex2 tk g(tk )
para pontos t1 , . . . , tM , no caso da norma `2 discreta
M
X
f (x1 , x2 ) = (x1 ex2 tk g(tk ))2 .
k=1

Como a dependncia nos coeficientes x1 , x2 deixou de ser linear, o procedimento dos mnimos
quadrados habituais deixa de ser possvel.

O processo geral ainda usar a derivada de Frchet e obtemos


fx0 (h) = hFx0 (h), F (x)i
porque
hF (x + h), F (x + h)i hF (x), F (x)i = hF (x + h) F (x), F (x + h) + F (x)i
= hFx0 (h) + o(||h||), Fx0 (h) + o(||h||) + 2F (x)i
= 2 hFx0 (h), F (x)i + o(||h||)
notando que hFx0 (h), Fx0 (h)i = ||Fx0 (h)||2 (||Fx0 ||L(H) ||h||)2 = O(||h||2 ) = o(||h||).

70
No caso em que H = RN e em que F (x) RM , temos

0 = fx0 (h) = hFx0 (h), F (x)i = (F (x)h) F (x),

e usando a base cannica com h = ek , obtemos

F (x)> F (x) = 0.

Ou seja
F F

(t )
x1 1
(t )
x1 M F (t1 )
.. .. .. ..
=0

. . . .
F F
xN 1
(t ) (t )
xN M
F (tM )

Exemplo 22. No exemplo considerado antes, com F (x1 , x2 )(t) = x1 ex2 t g(t), obtemos

ex2 t1 x1 t1 ex2 t1 g(t1 ) x1 ex2 t1
F (x) = ... ..
, F (x) =
..

. .
x2 tM x2 tM x2 tM
e x1 tM e g(tM ) x1 e

0 = fx0 = F (x)> F (x)

ficando PM
k=1 (g(tk ) x1 ex2 tk )ex2 tk  
> 0
F (x) F (x) = =
PM x2 tk x2 tk
0
k=1 (g(tk ) x1 e )x1 tk e

Aplicando o Mtodo de Newton funo (x) = F (x)> F (x), temos

(x) = (F (x)> F (x)) = 2 F (x) : F (x) + F (x)> F (x).

O Mtodo de Gauss-Newton consiste em ignorar a parte das 2 derivadas,2 F (x) :


F (x), e trabalhar apenas com

(x) F (x)> F (x)

na resoluo do sistema linear de Newton (x(k) )h = (x(k) ), ficando assim

[Mtodo de Gauss-Newton] J > J h = J > f (3.2)

onde J = F (x(k) ), f = F (x(k) ).


Esta atribuio do valor de h pode ser tanto encarada como a escolha directa para x(k+1)

x(k+1) = x(k) + h,

como tambm uma direco de descida, e nesse caso x(k+1) = x(k) + h, onde determi-
nado pelos mtodos de pesquisa linear.

71
Observao 42. Pelo mtodo de Gauss-Newton

x(k+1) x(k) = h = (J > J)1 J > f

e portanto pode ser visto como uma aplicao do mtodo do ponto fixo usando

x = G(x) = x (J > J)1 J > f


= x (F (x)> F (x))1 F (x)> F (x)

Observao 43. Uma forma mais conhecida de aplicao do Mtodo de Levenberg-Marquardt


aplicada ao Mtodo de Gauss-Newton

(J > J + I) h = J > f

sendo tambm habitual substituir I pela diagonal da matriz J > J.

72
Captulo 4

Optimizao com restries

Dada uma funo f : RN R considere-se o problema de minimizao (P):

min f (x)

xR N

onde um conjunto admssivel, definido agora por restries ci :


- restries de igualdade, ci (x) = 0, onde i E (E o conjunto de ndices de igualdade)
- restries de igualdade, ci (x) 0, onde i D (D o conjunto de ndices de deigual-
dade)
Portanto o conjunto admissvel dado por
= {x RN : ci (x) = 0 (i E), ci (x) 0 (i D)}.

Definio 24. Seja f contnua, dizemos que z um ponto de mnimo local se existir
uma vizinhana Vz :
f (x) f (z), x Vz ;
e dizemos ser estrito se f (x) > f (z) quando x 6= z, x Vz .
No caso de minimizao com restries o ponto de mnimo pode estar no interior, z ,
ou num ponto da fronteira, z .
Definio 25. A restrio ci diz-se Activa em x , se ci (x) = 0. As restries de
o conjunto de ndices das
desigualdade dizem-se inactivas se ci (x) > 0. Para cada x ,
restries activas :
A(x) = E {i D : ci (x) = 0}.
Para evitar condies redundantes no mesmo ponto, quando ci so diferenciveis, tam-
bm assumimos independncia linear dos gradientes.
Definio 26. (LICQ - Linear independence constraint qualification). A condio LICQ
vlida em z, se o conjunto de funes

{ci (z) : i A(z)}

for linearmente independente.

73
4.1 Condies KKT
Ao problema de minimizao com restries associamos a funo lagrangiana
X
L(x, ) = f (x) i ci (x),
iED

onde i R so os multiplicadores de Lagrange, definidos para cada i E D.


Teorema 18. (Condies necessrias de 1 ordem - KKT - Karush-Kuhn-Tucker).
Se z um ponto de mnimo local verificando LICQ, ento existe um multiplicador de
Lagrange (vectorial) que verifica as condies (KKT):
P

f (z) iA(z) i ci (z) = 0
ci (z) = 0 (i E)



ci (z) 0 (i D)
0 (i D)



i
i ci (z) = 0 (i E D)

As condies KKT levam a um sistema onde o nmero de equaes coincide com o


nmero de incgnitas. Esse sistema pode ser resolvido no contexto habitual de mtodos
para sistemas de equaes, no entanto h outras abordagens - nomeadamente as que levam
a uma adaptao a mtodos para problemas sem restries.
Observao 44. Ao nmero de incgnitas N correspondente s coordenadas do ponto z
acresce o nmero de incgnitas ME + MD (o cardinal de E somado ao de D) resultante
das restries. Essas incgnitas passam a ser os multiplicadores de Lagrange, um por
cada restrio. A primeira condio tem N equaes, a que juntam as equaes ME . As
inequaes MD passam a equaes activas pela ltima condio quando os i no so
nulos. Devem discutir-se os casos conforme os i sejam ou no nulos (ao definir um i = 0
fica determinada uma das incgnitas). Se assumirmos todos os i nulos vamos encontrar
mnimos de f sem ter em conta as restries (isso s acontece quando o mnimo interno
ao conjunto admissvel).
Exemplo 23. (Restries de igualdade)
Consideremos f (x) = 4 x21 4x1 x2 x22 sujeito restrio x21 + x22 = 1.
Podemos escrever c1 (x) = 1 x21 x22 = 0, e temos

L(x, ) = 4 x21 4x1 x2 x22 (1 x21 x22 )

o que nos d  
2x1 4x2 + 2x1
L(x, ) = =0
4x1 2x2 + 2x2
e podemos resolver este sistema pelo mtodo de Newton.
O mtodo de Newton envolve aqui a matriz Hessiana de L que pode ser escrita, no caso
de restries de igualdade, na forma seguinte
 
2x L c
HL (x, ) =
(c)> 0

74
onde c a matriz jacobiana relativa s condies c, e onde 2x L representa a matriz
hessiana apenas em termos das condies sobre x.
Neste caso, como
 
2 + 2 4
2
x L = , c = [2x1 2x2 ]>
4 2 + 2
obtemos
2 + 2 4 2x1
HL (x, ) = 4 2 + 2 2x2
2x1 2x2 0
o que tambm poderia ser obtido por clculo directo.
Assim, o mtodo de Newton consistiria na resoluo sucessiva dos sistemas
HL (x(n) , (n) )s(n) = L(x(n) , (n) )
que definem a nova iterada (x(n+1) , (n+1) ) = (x(n) , (n) ) + s(n) .
No caso mais geral, devemos ainda considerar a possibilidade de restries de desigual-
dade, e iremos ver como estas so usadas.
Definio 27. Definimos o conjunto
( ( )
d ci (z) = 0, (i E)
F1 (z) = d : > 0, ,
d ci (z) 0, (i D A(z))

que corresponde ao cone tangente regio admissvel (sendo LICQ vlida);


e tambm o conjunto F2 (, z) F1 (z) :
F2 (, z) = {d F1 (z) : d ci (z) = 0 (i D A(z), i > 0)},
subespao tangente das restries activas.
Proposio 16.
(i) Se z verifica as condies KKT e w F1 (z), ento w f (z) 0.
(ii) Se z verifica as condies KKT e w F2 (, z), ento w f (z) = 0.
Teorema 19. (Condies necessrias de 2 ordem). Se z soluo local do problema de
minimizao (P), e sendo f, c C 2 (Vz ), verificando-se a condio LICQ em z, ento so
vlidas as condies KKT e a matriz Hessiana do Lagrangiano semidefinida positiva em
F2 (, z) :
w HL (z)w 0, w F2 (, z).
De forma anloga estabelecem-se condies de 2 ordem, suficientes
Teorema 20. (Condies suficientes de 2 ordem). Sejam f, c C 2 (Vz ), tal que existe
um vector multiplicador de Lagrange associado ao ponto z onde se verificam as condies
KKT e a matriz Hessiana do Lagrangiano definida positiva em F2 (, z) :
w HL (z)w > 0, w F2 (, z), w 6= 0;
ento z soluo local estrita do problema de minimizao (P).

75
Exemplo 24. Consideramos o problema de minimizao de
f (x) = (x1 2)2 + 2x22
com as restries de desigualdade
c1 (x) = 1 x1 x2 , c2 (x) = x2 x1 + 1, c3 (x) = x1 .
Nota: aqui sabemos imediatamente que o ponto de mnimo z = (1, 0).
O gradiente do Lagrangiano dado por
L(z, ) = f 1 c1 2 c2 3 c3
       
2(x1 2) 1 1 1
= 1 2 3
4x2 1 1 0
Pelo que as condies KKT ficam:
   
2(x1 2) + 1 + 2 3 0
=
4x2 + 1 2 0
com as restries
x1 1 x2 1 x1 ; x1 0
com 1 , 2 , 3 0, e com
1 (1 x1 x2 ) = 0

2 (x2 x1 + 1) = 0

3 x 1 = 0

Podemos ver os vrios casos.


1) 1 , 2 , 3 = 0, corresponde a no impor restries, e o mnimo seria interno. Obteramos
imediatamente x = (2, 0), mas a condio c2 ou seja x2 1x1 no seria verificada 0 12
falso. Conclumos que o mnimo sem restries no o mnimo do problema (P).
2) 1 , 2 = 0, 3 6= 0, corresponde a considerar apenas uma restrio activa em c3 ,
obtemos logo x1 = 0, mas isso implica 4 3 = 0, ou seja 3 < 0, o que no pode
acontecer (por KKT).
Se considerarmos 1 6= 0, 2 = 3 = 0, semelhante, mas apenas com a restrio activa
em c1 , obtemos (resolvendo o sistema) x = (4/3, 1/3) que no pertence regio admissvel,
pois c2 (x) = 31 43 + 1 < 0.
Finalmente, 2 6= 0, 1 = 3 = 0, resulta numa falha da condio c1 .
3) 1 , 2 6= 0, 3 = 0, corresponde a considerar as restries c1 e c2 activas. A resoluo
do sistema leva imediatamente soluo pretendida x = (1, 0), com = (1, 1, 0).
Assim verificam-se as condies KKT, e a matriz Hessiana do Lagrangiano definida
positiva  
2 0
HL (x) = .
0 4
Notamos ainda que as condies activas, sendo c1 e c2 levam aos vectores gradientes
   
1 1
c1 = , c2 = ,
1 1
que so linearmente independentes, sendo vlida a condio LICQ.

76
Observao 45. Fazemos notar que no caso em que h apenas restries lineares, ou seja em
que a funo c linear (ou afim) as segundas derivadas so nulas, tendo-se uma coincidncia
das matrizes hessianas: HL = Hf .
Podemos ainda considerar a matriz jacobiana das restries activas
R = [ci (z)](iA(z),i >0)
que ser uma matriz M N em que M N o nmero das restries activas consideradas.
Se a condio LICQ for verificada a caracterstica da matriz R ser M e o ncleo ter
dimenso N M.
Verifica-se ainda facilmente que Ker(R) = F2 (, z).
Definindo uma matriz S em que as suas colunas formam uma base de Ker(R), ou seja
RS = 0, e escrevendo ento os vectores de F2 (, z) na forma w = Sv, podemos reescrever
as condies de 2 ordem, sobre a matriz Hessiana do Lagrangiano, numa forma diferente:
(Sv) HL (z)(Sv) 0, v RN M
que corresponde condio de HL ser definida positiva em F2 (, z); e de forma semelhante
a condio definida positiva, com a desigualdade estrita (... > 0, se v 6= 0).
No caso em que M = N, temos Ker(R) = F2 (, z) = {0} e a matriz hessiana a
trivialmente definida positiva, o que podemos resumir na seguinte proposio:
Proposio 17. Se a condio KKT satisfeita com o par (z, ) e o conjunto dos gradi-
entes com restries activas linearmente independente
N = dim{ci (z) : i A(z), i > 0 (i D)}
ento z soluo local estrita de (P).

4.2 Casos Especiais


4.2.1 Restries lineares de igualdade
No caso em que ci so apenas lineares/afins, as condies de igualdade podem ser escritas
Ax = b
..
decompmos a matriz A = [B .C] tal que B seja uma matriz M M invertvel (pode ser
necessrio uma prvia troca de linhas), e separando ainda x = (xB , xC ) obtemos
Ax = BxB + CxC
pelo que podemos resolver Ax = b na forma
xB = B 1 b B 1 CxC .
Assim, a restrio incorporada num problema sem restries definindo uma nova funo
g(xc ) = f (x) = f (xB , xC ) = f (B 1 b B 1 CxC , xC )
podendo aplicar-se um mtodo sem restries em RN M para encontrar o mnimo de g, que
ser o mnimo de f sujeito s restries lineares.

77
Observao 46. O mesmo processo pode ser aplicado noutros casos em que seja possvel
uma simplificao, escrevendo algumas variveis em funo das restantes. Por exemplo,
sendo
f (x) = (x1 + x2 )2 + x43 + e6x4
com restries c1 (x) = x1 + x2 ex4 = 0, c2 (x) = x3 x1 x2 = 0, podemos definir
imediatamente x3 = x1 + x2 = ex4 , obtendo um problema de minimizao a uma s varivel

g(x3 ) = x23 + x43 + x63 .

4.2.2 Caso quadrtico com restries de igualdade lineares


No caso em que f uma funo quadrtica da forma
1
f (x) = x Gx + x d
2
sujeito a condies Ax = b com A matriz de caracterstica M, o problema a resolver
linear, pois sendo c(x) = Ax b, temos

f = Gx + d, c = A,

obtendo-se o sistema resultante da condio KKT, sobre o lagrangiano

G A
    
x d
= .
A 0 b

4.3 Mtodos para optimizao com restries


Mencionamos apenas brevemente alguns tipos de mtodos - penalizao e barreira - que
permitem lidar com o problema de optimizao com restries numa forma em que po-
dem ser usados mtodos de optimizao sem restries. A ideia consiste simplesmente em
incorporar na minimizao sem restries uma funo de custo adaptada ao domnio.
Um estudo mais detalhado destes e outros algoritmos no ser apresentado nesta intro-
duo matria.

4.3.1 Mtodos de Penalizao


Consideramos uma funo de penalizao P regular, no negativa, e tal que

P (x) = 0 x .

Definimos uma nova funo para minimizar

F (x) = f (x) + P (x)

onde > 0 um parmetro suficientemente grande, que pode ser redimensionado a cada
passo.

78
Exemplo 25. Por exemplo no caso em que procuramos
min f (x)


definido por ci (x) 0, (i D), podemos definir
com
X
F (x) = f (x) + P (ci (x))
iD

onde
P (ci (x)) = min{0, ci (x)}2 .
Comeamos com > 0 e resolvemos o problema sem restries para F . A cada aumento
do valor de podemos usar o valor obtido anteriormente.

4.3.2 Mtodos de Barreira


Os mtodos de barreira so semelhantes aos anteriores, mas consideram B no negativa tal
que
B(x) , when x ,
e a funo a minimizar sem restries passa a ser ( )
F (x) = f (x) + 1 B(x).
Exemplo 26. Uma possibilidade usada a barreira logartmica. Por exemplo no caso em
que procuramos
min f (x)


definido por ci (x) 0, (i D), podemos definir
com
X
F (x) = f (x) + 1 B(ci (x))
iD
onde B(y) = log(y).

4.3.3 Lagrangiano Aumentado


Uma possibilidade usando o mtodo de penalizao para condies ci (x) = 0 seria considerar
X
F (x) = f (x) + ci (x)2
iE

e a variante do Mtodo do Lagrangiano Aumentado consiste em incorporar os termos do


lagrangiano, na nova funo sem restries:
X X
F (x) = f (x) + ci (x)2 i ci (x),
2 iE iE
e onde os valores i so actualizados com
i ci (
z)
onde z o ponto de mnimo obtido com o anterior valor de .

79
Referncias Bibliogrficas

[1] K. Atkinson, W. Han. Theoretical Numerical Analysis: A Functional Analysis Frame-


work. Springer-Verlag 2001

[2] P.G. Ciarlet. Introduction lanalyse numrique matricielle et loptimisation. Mas-


son, Paris, 1982

[3] P. E. Gill, W. Murray, M. H. Wright. Practical optimization. Academic Press, London-


New York 1981

[4] E. Kreyszig. Introductory Functional Analysis with Applications. Wiley, New York 1989

[5] R. Kress. Linear integral equations. App. Math. Sci. 82, Springer-Verlag 1999

[6] D. Luenberger, Y. Ye. Linear and Nonlinear Programming. Springer-Verlag 2008

[7] J. Nocedal, S. J. Wright. Numerical Optimization. Springer-Verlag 1999

[8] J. M. Ortega, W. Rheinboldt. Iterative solution of nonlinear equations in several vari-


ables. Academic Press, New York 1970

[9] P. Pedregal. Introduction to optimization. Texts in Applied Mathematics, 46. Springer-


Verlag, New York 2004

[10] E. Zeidler. Nonlinear Functional Analysis and Its Applications. Springer-Verlag, New
York 1989

80

Você também pode gostar