Escolar Documentos
Profissional Documentos
Cultura Documentos
Optimizao. Teoria
Carlos J. S. Alves
Instituto Superior Tcnico
2012
1
Sumrio
2 Espaos Funcionais 40
2.1 Resultados em Espaos de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . 40
2.1.1 Sistema Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.2 Derivada generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.3 Espaos de Sobolev (em R) . . . . . . . . . . . . . . . . . . . . . . . 44
2.2 Teorema de Representao de Riesz . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1 Transformada de Fourier e solues fundamentais . . . . . . . . . . . 49
2.2.2 Soluo Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2
3.2.1 Exemplo - Mnimos Quadrados . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Exemplo - dimenso finita . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Limitao computacional na optimizao global . . . . . . . . . . . . . . . . 56
3.4 Problemas de optimizao unidimensional . . . . . . . . . . . . . . . . . . . 57
3.4.1 Pesquisa seccional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.2 Aproximao Quadrtica . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Mtodos de Descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5.1 Mtodo do Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5.2 Mtodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5.3 Mtodo de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . 63
3.6 Pesquisa Linear Inexacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 Regra de Armijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.2 Teste de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.7 Sistemas lineares e Direces Conjugadas . . . . . . . . . . . . . . . . . . . . 65
3.7.1 Mtodo do gradiente para sistemas lineares . . . . . . . . . . . . . . . 65
3.7.2 Mtodo das direces conjugadas . . . . . . . . . . . . . . . . . . . . 66
3.8 Mtodos dos Gradientes Conjugados . . . . . . . . . . . . . . . . . . . . . . 68
3.8.1 Mtodos de Fletcher-Reeves e Polak-Ribire . . . . . . . . . . . . . . 68
3.8.2 Implementao como mtodos de descida . . . . . . . . . . . . . . . . 68
3.9 Mtodos Quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.9.1 Mtodos BFGS e DFP . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.9.2 Mtodo de Gauss-Newton (mnimos quadrados no lineares) . . . . . 70
3
Prefcio
Estas folhas seguem essencialmente os cursos de Anlise Numrica Funcional e Opti-
mizao leccionados entre 2010 e 2012.
4
5
Captulo 1
O Mtodo do Ponto Fixo talvez o mtodo numrico mais simples e eficaz para a resoluo
de quaisquer equaes, dado o seu mbito generalizvel.
Ao escrever uma equao na forma
x = g(x),
a ideia do mtodo do ponto fixo consiste em considerar apenas a iterao
xn+1 = g(xn )
partindo de um valor inicial x0 .
A validade do mtodo resultar da continuidade da funo g, e da unicidade do limite,
porque existindo limite da sucesso, xn z ento
xn+1 z, g(xn ) g(z) = z = g(z).
Uma soluo z assim designada ponto fixo de g porque se mantm invariante perante
a aplicao da funo iteradora g. A convergncia deste mtodo depende muito da escolha
da funo g. Com efeito importante notar que podemos escrever x = g(x) com diferentes
funes, bastando ver que
x 1
x = g(x) x = + g(x) = G(x),
2 2
e a aplicao do mtodo do ponto fixo nova funo iteradora G = x2 + 21 g(x) no produzir
os mesmos resultados que g.
A teoria para resoluo de equaes algbricas em R faz parte de cursos introdutrios
a mtodos numricos.
Exemplo 1. Podemos lembrar, como exemplo, a resoluo de uma equao x2 = a, que
pode ser reescrita de forma equivalente como x = xa (se x 6= 0), ou ainda
x a
x = g(x) = +
2 2x
6
e daqui definir o mtodo do ponto fixo
xn a
xn+1 = +
2 2xn
comeando com x0 = 1. Automaticamente teremos
a+1 a+1 a
x1 = , x2 = + ,...
2 4 a+1
e para certos valores de a esta sucesso converge para + a. Por exemplo, se a = 2, temos
3 17 17
x1 = = 1.5, x2 = = 1.4166.., x3 = = 1.4142..
2 12 12
e ao fim de 3 iteraes temos uma aproximao de 2 com 5 dgitos correctos, usando
apenas somas e divises.
No entanto se esta escolha de g permite estes resultados notveis, se tivessemos deixado
a equao apenas na forma equivalente x = g(x) = xa , o mtodo xn+1 = xan levaria de x0 = 1
a x1 = a, e de novo x2 = 1, x3 = a, no se saindo deste ciclo. Ou seja, h escolhas de g que
funcionam e outras no.
f (xn )
xn+1 = xn
f 0 (xn )
|g 0 (z)| < 1,
1.1 Motivao
Tomemos como exemplo uma equao em que a incgnita uma funo f contnua tal que
x
f (x) = 1 f (t)dt
0
7
Figura 1.1:
8
||.|| : E [0, +)
||x|| = || ||x|| , x E, R ou C,
||x|| = 0 x = 0.
A um espao vectorial E munido de uma norma ||.||, chamamos espao vectorial normado
e indicamos (E, ||.||) apenas em caso de ambiguidade. Normalmente apenas indicamos E,
subentendendo qual a norma em questo. Quando indicarmos ||.||E referimo-nos norma
no espao (E, ||.||).
Observao 1. (i) A partir de uma norma, podemos definir imediatamente uma distncia
d(x, y) = ||x y||, que nos permite quantificar uma certa proximidade entre dois elementos
do espao vectorial (beneficiando da relao de ordem existente nos reais). Consequente-
mente, fica estabelecida uma noo de vizinhana, que definir a topologia.
(ii) importante notar que estando definidas vrias normas sobre um mesmo espao
vectorial, elas podem estabelecer um critrio de proximidade diferente (ou seja, importante
estar subjacente qual a norma usada! Quando, ao longo do captulo, escrevemos xn x,
fulcral termos presente segundo que norma isso acontece). Iremos ver que se o espao
vectorial tiver dimenso finita, todas as normas a definidas so equivalentes, mas isso no
vlido para espaos com dimenso infinita... poder acontecer que uma sucesso convirja
segundo uma norma, mas no segundo outra!
(iii) Se no espao vectorial estiver definido um produto interno x y, ento a norma
natural associada a esse produto interno ||x|| = x x, e podemos usar a importante
desigualdade de Cauchy-Schwarz:
|x y| ||x|| ||y||
Exerccio 1. .
a) Mostre que em RN ou CN so normas as aplicaes
9
e que a aplicao
||u|| = sup{|u1 |, ..., |un |, ...}
uma norma no sub-espao das sucesses
e que a aplicao
||f || = sup |f (x)|
xI
10
Um conjunto A diz-se limitado se R 0 : x A, ||x|| R.
Num espao de dimenso finita, se um conjunto for fechado e limitado um compacto, mas
em espaos de dimenso infinita isso nem sempre acontece1 .
Definio 3. Uma sucesso (xn ) num espao normado E converge para x E, e escrevemos
xn x, se
n
||xn x|| 0
Observao 3. claro que o limite, a existir, nico. Basta reparar que se x e y fossem
limites da sucesso (xn ), ento para qualquer > 0 existe um n suficientemente grande
tal que ||x xn || < , ||xn y|| < , logo ||x y|| ||x xn || + ||xn y|| < 2. Ou seja,
> 0, ||x y|| < 2, o que implica x = y.
Definio 4. Duas normas ||.|| e |||.|||, num mesmo espao vectorial E, dizem-se equiva-
lentes se existirem C1 , C2 > 0 tais que:
Observao 4. Como claro, esta noo de equivalncia entre normas significa que as
topologias tambm sero equivalentes, ou seja, que os abertos e fechados sero os mes-
mos, que um conjunto sendo limitado para uma norma tambm o ser para outra, que a
continuidade numa norma implica continuidade na outra, etc. (exerccio).
Lema 1. Seja E um espao normado de dimenso finita. Ento, qualquer que seja a norma
|||.||| em E, existe R > 0:
11
Figura 1.2:
Demonstrao. Seja e(1) , ..., e(N ) uma base do espao vectorial E, sabemos que sendo x =
x1 e(1) + ... + xn e(n) ento
|||x||| = |||x1 e(1) + ... + xN e(N ) ||| (|||e(1) ||| + ... + |||e(N ) |||) max |xi |.
i=1,...,N
Como ||x|| = maxi=1,...,N |xi | 1 basta tomar R = |||e(1) ||| + ... + ||e(N ) ||| > 0.
Teorema 1. As normas em espaos de dimenso finita so equivalentes.
Demonstrao. Basta ver que qualquer norma |||.||| equivalente norma ||.|| , devido
transitividade da relao de equivalncia. Consideremos o conjunto S = {x E : ||x|| =
1}. S um compacto na topologia de |||.|||, porque no lema anterior vimos que era limitado
e, sendo fechado, isto suficiente, num espao de dimenso finita.
Como a norma um operador contnuo, e S compacto, vai existir um mximo e um
mnimo (generalizao do T. Weierstrass):
C1 |||x||| C2 , x S
2
Exemplo 2. Consideremos a sucesso xn = (1 n12 , n2n+4 ) cujos pontos representamos nas
trs figuras em baixo. bvio que esta sucesso tende para o ponto x = (1, 1), o que
se pretende pr em evidncia que isso acontece segundo qualquer uma norma em R2 ,
j que foi isso que acabou de ser demonstrado. Considermos trs normas diferentes (a
que correspondem as trs figuras), a norma euclidiana ||.||2 , a norma do mximo ||.|| e a
norma da soma ||.||1 , que so as mais usuais, e em torno do ponto limite x = (1, 1) foram
consideradas bolas (o nome no se aplica apenas primeira... B(a, r) = {x : ||x a|| r})
com raios entre 0.5 e 0.1. fcil perceber que qualquer que seja a norma, por mais pequeno
que seja o raio, sempre possvel encontrar um dos elementos da sucesso dentro dessa bola
(vizinhana). Isto significa que a sucesso converge segundo qualquer uma das normas.
Por outro lado, tambm claro que estabelecer a equivalncia entre as normas ||.||2 e
||.|| , fcil, podemos mesmo explicitar as constantes. Com efeito, como (dimenso=N )
12
conclumos que
||x|| ||x||2 N ||x|| .
Isto corresponde a dizer, em dimenso 2, que se um quadrado contm o crculo com o
mesmo raio, um crculo com 2 vezes esse raio j ir conter o quadrado. A equivalncia
simplesmente isto, e permite concluir que bolas numa certa norma vo estar includas
em bolas noutra norma e vice-versa2 . Para terminar, referimos que explicitar as constantes
para a equivalncia entre ||.||1 e ||.|| igualmente fcil. Como,
||x||1 = |x1 | + ... + |xN | max{|x1 |, ..., |xN |} = ||x|| ,
||x||1 = |x1 | + ... + |xN | N max{|x1 |, ..., |xN |} = N ||x|| ,
conclumos que
||x|| ||x||1 N ||x|| .
(o que significa que o losango ir estar includo num quadrado com o mesmo raio e que esse
quadrado estar includo num losango com o dobro do raio).
13
Figura 1.3:
Este exemplo torna tambm claro que no h equivalncia entre as normas ||.|| e ||.||1 ,
o que tambm poder ser compreendido se pensarmos que a funo f (x) = 1x que est na
2) definida pela norma em L1 (]0, 1[), j que o integral existe, tendo-se ||f ||1 = 2.
bola B(0,
No entanto, sendo uma funo ilimitada no h qualquer bola definida pela norma ||.||
que contenha essa funo.
Tambm fica claro que, para desenhar os limites duma bola para a norma ||.|| basta
considerar uma banda circundante, mas para desenhar os limites duma bola para a norma
||.||1 -nos simplesmente impossvel...
Observao 5. O recproco desta proposio nem sempre ser vlido. Ou seja, podemos ter
sucesses cujos termos se aproximam indefinidamente, mas que no tm limite em E. Isto
anlogo ao que se passa com os racionais... uma sucesso de Cauchy de racionais pode no
ter limite nos racionais, basta pensar na sucesso x0 = 1, xn+1 = x2n + x1n cujos termos so
sempre racionais, mas que converge para 2, ou na sucesso definida por yn = (1 + n3 )n Q
e cujo limite e3 .
A soluo foi considerar essa sucesses como sendo nmeros, constituindo os nmeros
reais, completando assim o espao dos racionais, como vimos no incio do texto. A partir
da o nosso espao comum de trabalho o dos nmeros reais. No caso das funes ir
passar-se algo semelhante, mas com a grande diferena de podermos num mesmo espao
considerar vrias normas. Assim, se sucesses de Cauchy de funes contnuas segundo a
norma do mximo so ainda funes contnuas, devido continuidade uniforme, o mesmo
no ir acontecer se considerarmos outra norma, por exemplo a norma L1 .
Isto poderia significar que tendo obtido uma sucesso de Cauchy com o mtodo do ponto
fixo, esta no teria ponto fixo num simples espao normado. Torna-se por isso conveniente
trabalhar num espao em que isso no acontea - num espao de Banach:
14
Definio 6. Um espao vectorial normado E diz-se espao de Banach se for completo,
ou seja, se toda a sucesso de Cauchy em E for uma sucesso convergente para um certo
x E.
15
No entanto verificamos que, pontualmente, a sucesso (fn ) converge para uma funo
que nula em [0, 1[ e igual a 1 em [1, 2], ou seja, uma funo que descont nua! Conclu
mos que C([0, 2]) no completo para a norma L1 . Vejamos que para a norma habitual de
C[a, b] que ||.|| , a sucesso em causa no de Cauchy. Com efeito,
||fm fn || = sup |xm xn |
x[0,1]
16
Exerccio 5. Sejam E, F, G espaos normados. a) Mostre que se A, B : X E F forem
operadores contnuos, A + B um operador contnuo, e que para qualquer R ou C, o
operador A contnuo. b) Mostre que se A : X E Y F, B : Y F G so
operadores contnuos, ento B A tambm contnuo (em X).
(Quando no h perigo de confuso, normalmente adoptada a notao multiplicativa
para designar a composio, ou seja BA = B A, tal como nas matrizes)
A(x + y) = Ax + Ay, x, y E
A(x) = Ax, x E, R (ou C)
Como se tratam de operadores lineares, isto significa que transformam qualquer conjunto
limitado num conjunto limitado5 .
||Ax||F
||A||L(E,F ) = sup ||Ax||F = sup (1.2)
||x||E 1 x6=0 ||x||E
17
1.4 Mtodo do Ponto Fixo e o Teorema de Banach
Iremos agora concretizar a generalizao do mtodo e do teorema do ponto do fixo a espaos
de Banach.
Seja A um operador qualquer definido num subconjunto X (designado domnio) de um
espao de Banach E,
A : X E E.
Pretendemos encontrar os pontos fixos de A, ou seja z X :
z = Az
e para esse efeito vamos usar o mtodo do ponto fixo (tambm designado mtodo de Picard),
x0 X
.
xn+1 = Axn
Como o mtodo implica repeties sucessivas do operador A, natural exigir que imagem
ainda esteja no dom nio, ou seja A(X) X.
Como vimos em R e em C para assegurar a convergncia do mtodo foi usada a noo
de contractividade, que neste contexto se define da seguinte forma:
18
iii) Verificam-se as desigualdades:
1 Lm Ln
= Ln (Lm1 + ... + 1)||x1 x0 || = Ln ||x1 x0 || ||x1 x0 ||
1L 1L
que converge para zero quando n, m .
3o ) Existncia e convergncia.
Como E completo e (xn ) sucesso de Cauchy, existe z E tal que xn z. Por
outro lado, como X fechado, conclumos que z X. Como xn z e A contnuo (porque
contractivo), ento xn+1 = Axn Az. Pela unicidade do limite, temos z = Az, o que
prova a existncia de um ponto fixo em X.
4o ) Unicidade.
Supondo que existiam z, w X tais que z = Az e que w = Aw, ento
19
Observao 7. (i) Nesta demonstrao, ao provarmos que a sucesso de Cauchy, assegu-
ramos imediatamente a existncia de ponto fixo o que difere da demonstrao apresentada
para o caso de intervalos limitados em que assegurmos existncia atravs do teorema do
valor intermdio7 .
Observao 8. Note-se que ainda que esteja estabelecida a equivalncia entre normas (como
entre todas as normas no caso de dimenso finita), provar a contractividade para uma norma
no significa que ela seja vlida para as normas equivalentes. A contractividade uma
propriedade quantitativa e no qualitativa, e poder haver diferenas. Por exemplo, em
dimenso finita, muitas vezes possvel demonstrar a contractividade, num certo conjunto,
para a norma ||.|| e no para a norma ||.||1 ou vice-versa. claro que isso no invalida
que haja convergncia nas duas normas, e se considerarmos um conjunto mais pequeno ser
mesmo possvel mostrar a contractividade em qualquer das normas equivalentes.
7
Em espaos de dimenso finita podemos usar o teorema do ponto fixo de Brouwer para garantir ex-
istncia em conjuntos convexos e limitados. Em espaos de dimenso infinita utilizado um teorema de
Schauder que exige que o operador seja compacto.
20
Podemos pois considerar A : R3 R3 definido por
A(x1 , x2 , x3 ) = (1/3 x2 /3, x1 /2 x3 /4, 1 x2 /2)
Vejamos que A contractivo em R3 para a norma ||.|| :
1
3
(x 2 y 2 )
||Ax Ay|| = || 21 (x1 y1 ) + 14 (x3 y3 ) ||
1
2
(x2 y2 )
designando M = ||x y|| = max{|x1 y1 |, |x2 y2 |, |x3 y3 |}, obtemos assim
1 3 1 3
||Ax Ay|| max{ M, M, M } M
3 4 2 4
e portanto uma constante de contractividade 43 , e sendo contractiva em IR3 , que fechado,
qualquer aproximao inicial permite, atravs do mtodo do ponto fixo, obter a soluo
nica x (0.5294, 0.5882, 1.2941).
Vemos assim que o teorema do ponto fixo to geral que pode ser aplicado a equaes
que envolvem integrais, a sistemas de equaes, ou simplesmente a equaes em R ou C.
claro que quanto mais pequena for a constante de contractividade L, mais rpida ser
a convergncia. Como no caso real, podemos falar em ordem de convergncia. Convm
assim restabelecer a definio
Definio 9. Dizemos que xn converge para z com pelo menos ordem de convergncia
linear na norma ||.|| se existir K < 1 :
||en+1 ||
Kn = K.
||en ||
Quando Kn 0, diremos que a ordem de convergncia supralinear.
No caso de aplicao do teorema do ponto fixo, como mostrmos que ||en+1 || L||en ||,
com L < 1, podemos concluir que a convergncia pelo menos linear. Para prosseguirmos
com a anlise, avaliando se o limite de Kn existe, precisamos de introduzir a noo de
derivao aplicada aos espaos de Banach. Havendo duas possibilidades, optamos por in-
troduzir a noo de derivao de Frchet e no a de Gateaux, que nos parece mais adequada
para os nossos objectivos. Essa noo de diferenciabilidade permitir estender muitos dos
critrios observados no caso real, e apresentar o mtodo de Newton.
21
Definio 10. Sejam E, F espaos normados e A um operador A : X E F, cujo
domnio X um aberto8 . Dizemos que A Frchet-diferencivel (ou F-diferencivel ) no
ponto x X, se existir um operador linear T L(E, F ) tal que:
A0 : X L(E, F )
x 7 A0x : E F (operador linear)
8
Quando X fechado, diremos que A F-diferencivel em X se existir um aberto X X onde A
F-diferencivel. Para esse efeito, claro que necessrio que A esteja definido em X.
22
Exerccio 7. Verifique que se A Frchet-diferencivel, ento A contnuo.
0 0
(B A)x = BAx A0x (1.4)
0
onde (B A)x L(E, G). Para alm disso, claro que
23
1.5.1 Corolrio do Teorema do Ponto Fixo
Com o intuito de aplicar o Teorema do Ponto Fixo de Banach, reparamos que se exigirmos
que o conjunto seja convexo10 podemos obter um resultado, semelhante ao do caso real (ou
complexo), que relaciona a norma da derivada inferior a L < 1 contractividade.
Definio 12. Um conjunto no vazio X E diz-se convexo se verificar
Observao 10. Usando a definio, fcil ver que as bolas so conjuntos convexos: porque
se x, y B(a, r) = {w E : ||w a|| < r}, ento
24
Figura 1.4:
25
Demonstrao. Sendo z = Az, xn+1 = Axn , temos
||xn+1 z A0z (xn z)|| = ||Axn Az A0z (xn z)|| = o(||xn z||),
||en+1 A0z en ||
0.
||en ||
en+1
Observao 12. Este resultado mostra que a razo ||e n ||
se aproxima de A0z ( ||eenn || ). Se, no
caso real, foi imediato estabelecer que o coeficiente assimpttico de convergncia era |g 0 (z)|,
aqui no poderemos dizer que ||A0z ||.
Com efeito, o limite de ||e||en+1
n ||
||
pode no existir. Isto compreende-se pois pode acontecer
que a sucesso ||eenn || no convirja. Qual a diferena com o caso real? No caso real, quando
temos convergncia alternada, o valor |eenn | tambm no converge, pode ser 1, mas ao
calcular o mdulo, o valor |g 0 (z) |eenn | | seria sempre |g 0 (z)|. No entanto, podemos retirar
||en+1 ||
algumas informaes acerca do comportamento de ||en ||
.
||en+1 ||
lim sup ||A0z ||.
||en ||
||en+1 A0z en ||
n = ,
||en ||
Exemplo 9. Consideremos a funo g(x1 , x2 ) = 0.9(cos(x2 ), sin(x1 )), que tem apenas um
ponto fixo z = (0.7395, 0.6065). Comeando com x(0) = (0, 0), colocamos no grfico seguinte
os valores de Kn = ||e||en+1 ||
n ||
e verificamos que eles oscilam entre os valores 0.513 e 0.665.
26
Figura 1.5:
Figura 1.6:
||g(z)|| = max{0.9 |sin 0.6065| , 0.9 |cos 0.7395|} = max{0.513, 0.665} = 0.665...
Definio 13. Dizemos que xn converge para z com pelo menos ordem de convergncia p
se
||en+1 ||
Kn[p] = K.
||en ||p
[p]
Quando Kn no tende para zero, podemos dizer que a ordem de convergncia exac-
tamente p. No entanto, o que nos interessa neste momento saber se o facto de A0z = 0
implica uma convergncia pelo menos quadrtica, como acontecia no caso real, quando a
funo era regular.
Aqui tambm ser necessrio considerar uma maior regularidade para A, de forma a
que possa ser estabelecido um desenvolvimento de segunda ordem,
1
A(x + h) = Ax + A0x h + A00x (h, h) + o(||h||2 ),
2
27
em que A00x uma funo bilinear contnua correspondente segunda derivada (no caso de
RN corresponde a considerar as matrizes hessianas).
Desta forma, obtemos
1
xn+1 z = Axn Az = A0z (xn z) + A00z (xn z, xn z) + o(||xn z||2 ),
2
e portanto, como supmos A0z = 0,
1 en+1 1 en en
||en+1 + A00z (en , en )|| = o(||en ||2 ) || 2
+ A00z ( , )|| = n = o(1),
2 ||en || 2 ||en || ||en ||
Ax = 0 (A0x )1 (Ax) = 0,
porque o inverso do operador linear cont nuo A0x ser um operador linear cont nuo, e
portanto s ser nulo quando o seu argumento for nulo (neste caso o argumento Ax).
Assim, Ax = 0 equivalente a
x = x (A0x )1 (Ax)
e, dado x0 , obtemos o mtodo de Newton
11
A norma ||A00z || a norma das aplicaes bilineares contnuas, definida por
||B(v, w)||
||B|| = sup .
v,w6=0 ||v|| ||w||
28
Observao 14. Podemos verificar que o mtodo de Newton-Kantorovich tem convergncia
supralinear.
Sendo Gx = x (A0x )1 (Ax), e como z = Gz, podemos ver que G0z = 0. Com efeito,
Observao 15. Para verificar que um conjunto K fechado, til usar a propriedade das
funes contnuas que estabelece que se a imagem um fechado a pr-imagem tambm
um fechado.
Por exemplo, sendo a norma uma aplicao contnua ||.|| : K E I R+ 0 ento se a
1
imagem I um fechado, a pr-imagem K = f (I) tambm um fechado.
1),
Teorema 5. (de Brouwer). Seja K RN um conjunto homeomorfo bola unitria B(0,
e seja G : K K uma funo contnua, ento existe pelo menos um ponto fixo de G.
29
1) e a sua
Demonstrao. O teorema original de Brouwer foi estabelecido em 1912 para B(0,
demonstrao no construtiva. Apresentamos apenas a justificao de que extensvel a
conjuntos homeomorfos a essa bola, que simples.
Nesse caso, existe um homeomorfismo H : K B(0, 1), tal que B(0,
1) = H(K). Consid-
1
eramos por isso G = H G H
1)
G : B(0, 1)
K K B(0,
1
H G H
Observao 16. Muitas vezes o teorema de Brouwer generalizado apenas para convexos
de RN , o que um caso particular, j que todos os convexos de RN so homeomorfos
bola unitria. Esta outra formulao inclui outro tipo de conjuntos, por exemplo, todos os
estrelados.
K N
j=1 B(xj , ).
30
Teorema 6. (de Schauder). Seja K E um conjunto compacto e convexo de um espao
normado E. Seja G : K K uma funo contnua, ento existe pelo menos um ponto fixo
de G.
31
i) ||G(x)|| L < 1, x D
ii) G(D) D
ento estamos nas condies do Teorema do Ponto Fixo de Banach, logo:
i) Existe um e um s ponto fixo z D : z = G(z) ( F (z) = 0)
ii) O mtodo do ponto fixo x(n+1) = G(x(n) ) converge para z, qualquer que seja x0 D.
iii) So vlidas as estimativas
Vamos ver que existe uma e uma s soluo em R2 e que ela est em X = [ 21 , 32 ] [ 35 , 73 ].
Com efeito, se considerarmos
32
Aplicando o corolrio do T. Ponto Fixo, vemos que ||G(x, y)||1 5/6 < 1 e conclumos que
existe uma e uma s soluo em R2 (repare-se que se escolhessemos a norma ||.|| teramos
apenas ||G(x, y)|| 1, o que revela bem que as condies so apenas suficientes e no
necessrias). Por outro lado, reparando que G(R2 ) X porque
No entanto, como iremos ver, o clculo de uma matriz inversa mais moroso que a
resoluo de um sistema, pelo que o mtodo de Newton para sistemas no lineares consiste
em, dada uma iterada inicial x(0) RN , resolver, em cada iterada n, o sistema linear:
inicializando com x(0) = (1, 1) ao fim de 10 iteraes obtemos um resultado com uma
preciso semelhante ao obtido no exemplo para o mtodo do ponto fixo.
33
Proposio 6. (convergncia local). Seja F C 1 (Vz ), em que Vz uma vizinhana de
uma soluo z, onde det(F (x)) 6= 0, x Vz . Ento o mtodo de Newton converge para
z, desde que a vizinhana seja suficientemente pequena e x0 Vz .
Demonstrao. Exerccio.
1
f (x + h) = f (x) + f (x) h + h 2 f (x + h) h, para um certo ]0, 1[
2
2
onde 2 f (y) = [ xi x
f
j
] a matriz Hessiana de f calculada no ponto y.
No caso de uma funo F : RN RN , F = (f1 , ..., fN ) obtemos
1
F (x + h) = F (x) + F (x) h + h 2 fi (x + i h) h, para certos i ]0, 1[,
2
1
0 = F (z) = F (x(n) ) + F (x(n) ) e(n) + e(n) 2 fi (x(n) + i e(n) ) e(n)
2
obtendo-se
1
F (x(n) ).e(n+1) = e(n) 2 fi (x(n) + i e(n) ) e(n) .
2
Como f C 2 (Vz ), supomos agora que ||2 fi (x)|| M2 , e que || [F (xn )]1 || 1
M1
, numa
vizinhana da soluo13 . Obtemos a estimativa pretendida,
M2 (n) 2
||e(n+1) || ||e || .
2M1
12
Ou seja, det(F (z)) 6= 0.
13
Como assumimos F C 2 (Vz ), e como F invertvel em z (que no ponto crtico), ento, por
continuidade, o determinante de F tambm no nulo numa vizinhana suficientemente pequena de z.
34
Observao 19. (estimativa de erro). No resultado do teorema no explicitamos que a
M2
constante K seria 2M 1
, como foi deduzido na demonstrao, porque na prtica no um
valor facilmente clculvel. No entanto, quando se executa o mtodo de Newton procedendo
ao clculo de [F (xn )]1 , a sua norma pode ser facilmente calculada, e nesse caso podemos
escrever a estimativa
1
||e(n+1) || max ||2 F (x)|| || [F (xn )]1 || ||e(n) ||2 , (1.9)
2 xV
tendo em ateno que a estimativa faz apenas sentido quando estamos muito prximo da
soluo, e portanto a vizinhana V dever ser uma bola B(z, ) com pequeno. Por outro
lado o valor da norma ||2 F (x)|| deve ser entendido como o mximo das normas matriciais
maxi ||2 fi (x)||.
1.8.2 Complementos
H ainda a possibilidade de apresentar uma condio suficiente para a convergncia, semel-
hante obtida no caso escalar, e que tambm poder servir de critrio em R. Enunciamos
apenas o resultado, cuja demonstrao pode ser encontrada em [?]:
Teorema 8. (Kantorovich). Seja D RN um conjunto aberto e convexo e F C 1 (D).
Se
(i) M1 > 0 : || [F (x)]1 || M11 , x D,
(ii) M2 > 0 : ||F (x) F (y)|| M2 ||x y||, x, y D,
M2
(iii) existe x0 D, tal que 0 = 2 || [F (x0 )]1 F (x0 ) || verifica M 1
0 < 1,
(iv) B(x0 , 0 ) D,
ento h uma nica soluo z B(x 0 , 0 ), para a qual o mtodo de Newton converge
(comeando com a iterada inicial x0 ), e verifica-se a estimativa de erro a priori,
1 n
||e(n) || (K0 )2 ,
K
M2
em que escrevemos K = 2M1
(para pr em evidncia a semelhana com o caso real).
Observao 20. Notamos que a condio (i) implica a existncia de inversa para a matriz
jacobiana (equivalente no caso real a f 0 (x) 6= 0), e serve ao mesmo tempo para definir M1
(que corresponde no caso real a min |f 0 (x)|). A condio (ii) implica a limitao dos valores
da matriz Hessiana (caso f C 2 ) e define M2 (que corresponde no caso real a max |f 00 (x)|).
0 , 0 ), note-se que,
A terceira condio permite garantir que as iteradas vo ficar na bola B(x
por exemplo, ||x1 x0 || = 2 0 0 (e corresponde condio no caso real |f (x0 )/f 0 (x0 )|
1
35
derivadas parciais usando um clculo suplementar a uma distncia (para cada derivada)
tal como foi feito no caso unidimensional. ainda possvel generalizar o mtodo da secante
(cf. [?]).
Observao 22. (tempo de clculo) Enquanto que no mtodo do ponto fixo, o tempo de
clculo ser apenas T = n tG , em que tG o tempo mdio necessrio para avaliar a funo
G, no caso do mtodo de Newton, devido forma particular de G, h que considerar no
apenas o tempo de clculo de F, ou o tempo de clculo de F, como se passava no caso
real, mas tambm devemos considerar um novo tempo de clculo em cada iterao, tS , o
tempo mdio para a resoluo de um sistema linear. Assim teremos
T = n (tF + tF + tS ).
Pode acontecer que o tempo de resoluo do sistema seja muito maior que o tempo do
clculo da funo e das suas derivadas, pelo que habitual implementar tcnicas alternativas
que podem consistir em manter a matriz F (x(n) ) durante algumas iteradas subsequentes,
actualizando-a espaadamente. Isso permite reduzir consideravelmente o tempo de clculo,
j que sendo a matriz a mesma, podemos guardar a sua factorizao para resolver mais
rapidamente o sistema, como veremos na seco seguinte.
Jf (xn ) xn = f (xn ).
Jf (x) = ... .. .. .. .. ..
. . . . .
fN fN
x1
xN
fN [x h2 e1 ,x+ h2 e1 ] fN [x h2 eN ,x+ h2 eN ]
36
fk
prefervel recorrer s diferenas progressivas xj
fk [x, x + hej ] j que apesar da aproxi-
mao ser apenas O(h), requer metade dos clculos, ou seja N 2 , que seria tambm o nmero
de clculos a efectuar para as derivadas na matriz jacobiana.
Ainda que a resoluo do sistema seja prefervel computao da inversa, podemos usar
uma aproximao da inversa iterativamente (usando o Mtodo de Newton). Comeamos
com X0 = [Jf (xn1 ) ]1 e iteramos
o que nos garante convergncia quadrtica Xk [Jf (xn ) ]1 quando ||I X0 Jf (xn ) || < 12 , o
que acontece se Jf (xn ) [Jf (xn1 ) ]1 I, ou seja quando xn xn1 .
Vemos de seguida um outro mtodo, de Broyden, que generaliza o mtodo da secante,
a fim de evitar estes problemas.
A1 uv A1
(A + uv )1 = A1 (1.10)
1 + v A1 u
Demonstrao. Basta confirmar que a inversa:
A1 uv A1 1 1
1 1 A uv A
(A + uv ) A = I + uv A (A + uv )
1 + v A1 u 1 + v A1 u
AA1 uv A1 + uv A1 uv A1
= I + uv A1
1 + v A1 u
1 u(1 + v A1 u)v A1
= I + uv A =I
1 + v A1 u
Jk+1 = Jk + uk vk
37
1
e podemos escrever Jk+1 a partir da inversa de Jk usando a frmula de Sherman-Morrison.
k Jk xk
Como explicaremos na Observao 25, Broyden props usar uk = f||x k ||
2 e vk = xk ,
(abreviamos fk = f (xk )) o que corresponde a escrever
fk Jk xk
Jk+1 = Jk + 2
(xk )> (1.11)
||xk ||
Observao 25. A expresso (1.11) pode ser justificada pela semelhana com o Mtodo da
Secante.
No caso do mtodo da secante escolhamos xn+1 de forma a que fn+1 = 0, logo fn = fn ,
fn
escolhendo-se J tal que xn = J 1 fn de onde J = x n
(a razo incremental).
De forma semelhante, para substituir a iterao exacta de Newton Jf (xk ) xk = fk , quer-
emos encontrar agora uma matriz Jk+1 tal que
1
xk = Jk+1 fk
o que verificado pela expresso (1.11), pois
fk Jk xk >
Jk+1 xk = Jk + (xk ) xk = Jk xk + fk Jk xk = fk .
||xk ||2
38
com a funo f (x) = (x21 + 2x1 + x3 1, x1 x2 + x3 + x23 1, x1 x2 x3 + x2 x22 ) = 0.
Comeando com x(0) = (0, 0, 0), calculamos a matriz jacobiana s na 1 iterada (que
igual do mtodo de Newton)
2x1 + 2 0 1 2 0 1
Jf (x(0) ) = x2 x1 2x3 + 1 = 0 0 1 = J0
x2 x3 x1 x3 2x2 + 1 x1 x2 x=x(0)
0 1 0
1
12 0
1 1
2 2
2
0 1 0
= J01 = 0 0 1 = x(1) = x(0) J01 f (x(0) ) = 0 0 0 1 1 = 0
0 1 0 0 1 0 0 1
portanto
2 0 1 0 0 0 2 0 1
J1 = J0 + u(0) (v(0) )> = 0 0 1 + 0 0 1 = 0 0 2
0 1 0 0 0 0 0 1 0
1
0 0 1 0 0 1
0 0 1
12 0 1
14 0
J 1 u(0) (v(0) )> J 1
2 0 1 0 0 0 0 0 1 0 2
J11 = Jk1
= 0 0 1 =
k k
1+(v(0) )> J 1 u(0)
1
0 0 1
21
0 0
k
2 0 21 0
0 1 0
1+ 0 0 1 0 0 1 1
0 1 0 0
assim, obtemos
1
1
1
0 2
4
0 0 4
x(2) = x(1) J11 f (x(1) ) = 0 0 0 1 1 = 0
1 0 12 0 0 1
2
3 61
Na terceira iterada obteramos x(3) = ( 17 , 0, 102 ) (0.17647, 0, 0.59804) o que j um valor
prximo da soluo z =(0.17557.., 0, 0.618034..), valor que seria obtido (nesta preciso) na
4 iterada do Mtodo de Newton, mas apenas na 6 iterada do Mtodo de Broyden.
39
Captulo 2
Espaos Funcionais
40
Cauchy-Schwarz
|hu, vi| ||u|| ||v||.
Na teoria de funes considera-se muito habitualmente o produto interno e a norma asso-
ciada em L2 (a, b),
b b 1/2
hf, giL2 (a,b) =
f (t)g(t)dt, ||f ||L2 (a,b) = 2
f (t) dt .
a a
como S tem dimenso finita existe um mnimo, podemos encontrar uma condio para
mnimo atravs da derivada de Frchet de d(g) = ||f g||2 , fixo f. Usando (2.1),
no caso real conclui-se que d0g (h) = 2 hg f, hi . Procurando g tal que d0g 0, e restringindo
o problema a S (subespao fechado), trata-se de encontrar g S tal que
hf g, hi = 0, h S
41
A funo g S obtida pela soluo do sistema normal denominada projeco de f
sobre S, escrevendo-se
n
X
g = ProjS (f ) = ak k .
k=1
O erro da aproximao ||f g||, determinado imediatamente pela norma, com a soluo
g obtida.
O espao de Hilbert separvel se admite uma base ortonormada numervel 1 , , n , ,
e assim podemos escrever qualquer f H atravs da expanso de Fourier
D
X E
f= k , f k
k=1
que correspondem
D Esoluo do sistema normal limitando a base, j que no caso de base
ortonormada i , j = ij e a matriz do sistema normal seria a identidade.
Teorema 9. Num espao de Hilbert definido pela base ortonormada (n ), temos a desigual-
dade de Bessel
X n D E2
2
||f || k , f = ||fn ||2
k=1
verificando-se ||f fn ||2 = ||f ||2 ||fn ||2 , o que no caso limite d a igualdade de Parseval
D
X E2
2
||f || = k , f .
k=1
42
Assim, para v Cc1 (R), obtemos pela regra de integrao por partes
b
0 0
hf , vi = f (t)v(t)dt = f 0 (t)v(t)dt =
a
b b
R
0
b
= [f (t)v(t)]a f (t)v (t)dt = f (t)v 0 (t)dt
a a
0
= hf, v i .
Reparamos que a expresso hf, v 0 i tem sentido clssico, qualquer que seja f localmente
integrvel. Isto permite generalizar a noo de derivada, mesmo para funes no diferen-
civeis. De forma recursiva, definimos as restantes derivadas. Para simplificar usamos o
contexto generalizado apenas em L2 (a, b) porque esse que nos interessa no contexto dos
espaos de Sobolev que so espaos de Hilbert.
como [xv]0r = 0, [xv]r0 = 0 (porque v(r) = 0, j que o suporte est dentro do intervalo
(r, r)), obtemos r
0
hf, v i = sgn(x)v(x)dx = hsgn, vi
r
em que sign a funo sinal (sign(x) = 1 se x > 0), observando que o valor no ponto zero
irrelevante (conjunto de medida nula). Conclumos assim que no, sentido generalizado, a
funo sinal a derivada do mdulo, o que alis coincide com a derivada em cada um dos
troos diferenciveis.
43
o que no pode ser escrito na forma de um integral no sentido clssico2 . O resultado pode
ser expresso atravs de um funcional que o delta de Dirac centrado em zero.
Definio 16. Definimos o funcional linear delta de Dirac, (v) = v(0), para v Cc (R),
ou simplesmente para v C(R). Este pode ser representado na formah, vi , entendendo
o integral neste sentido generalizado R (t)v(t)dt = v(0). Por translao definimos ainda
b
x (v) = v(x), notando que deve considerar-se a x (t)v(t)dt = v(x) apenas quando x
(a, b), se x
/ [a, b] o valor do integral deve ser considerado zero.
Pela definio, acabamos por determinar que |x|00 = sgn0 = 2, generalizando a noo
da derivada ainda para alm das funes L2 , introduzindo funcionais lineares em D =
Cc (R). Esses funcionais lineares quando contnuos (na topologia adequada a Cc (R)) so
denominados distribuies (que esto assim no dualD0 ).
(
1 (x y)
Exerccio 9. Verificar que a derivada da funo de Heaviside Hy (x) = o
0 (x < y)
delta de Dirac y .
Resoluo: Para qualquer v Cc (R)
r
Hy0 , v = hHy , v 0 i = v 0 (t)dt = v(r) + v(y) = v(y) = y (v).
y
Observao 27. Quando trabalhamos com funes descontnuas, neste contexto, o valor
pontual tem um significado desprezvel. Assim, por exemplo, a aplicao da frmula de
Barrow b
f 0 (t)dt = f (b) f (a)
a
deve ser entendida usando a noo de trao, j que o seu valor nos extremos irrelevante
na medida de Lebesgue, por se tratar de um conjunto de medida nula. A igualdade pode
ser entendida no sentido limite, pela densidade das funes C em L1 (a, b) podemos con-
siderar os diversos valores da funo ou das derivadas na fronteira enquanto limite dessas
aproximaes.
44
trata-se de um espao de Hilbert onde podemos definir o produto interno
b b
hu, viH m (a,b) = u(t)v(t)dt + ... + u(m) (t)v (m) (t)dt,
a a
1/2
a que se associa a norma ||u||H m (a,b) = hu, uiH m (a,b) .
Para evitar deltas de Dirac podemos ainda alternativamente considerar funes teste w C (a, b) que
aproximem Hx Hy quando 0, a relao ento obtida no limite, pois
por um lado hf, w0 i f (y) f (x), e por outro, ||w ||L2 (a,b) |y x|1/2 .
esta noo pode ser estendida para dimenses superiores, usando a noo do trao.
O dual do espao H01 (a, b) designa-se H 1 (a, b), sendo o espao das formas lineares
contnuas, munido da norma associada
|F (v)|
||F ||H 1 (a,b) = ||F ||L(H01 (a,b),R) = sup .
v6=0 ||v||H 1 (a,b)
(em que p, q C[0, 1], so funes positivas), no sentido generalizado em que u H01 (a, b).
45
Resoluo: Consideramos v Cc (R), e aplicamos as regras de derivao generalizada:
desta forma a igualdade fica estabelecida mesmo para funes u H 1 (a, b), pois como p, q so contnuas,
temos pu0 , qu L2 (a, b). Quanto a f, notamos que basta estar definido hf, vi o que se verifica quando
f L2 (a, b).
Iremos ver, pelo teorema de representao de Riesz, que qualquer forma linear se pode identificar com
uma funo pelo produto interno, e por isso podemos considerar mesmo f H 1 (a, b).
dn = ||y zn || d
zm +zn zm +zn
e como ||y 2
|| d (porque 2
M ), obtemos
||y x||2 ||y wt ||2 = ||y x t(v x)||2 = ||y x||2 2t hy x, v xi + t2 ||v x||2
46
porque a desigualdade foi demonstrada para um v qualquer, e t ]0, 1] (o caso t = 0 seria trivial).
() Inversamente, para qualquer v M : ||y x||2 ||y v||2 = h(y v) + (v x), (y v) + (v x)i
hy v, y vi = 2 hy x, v xi ||x v||2 0 (verificar a igualdade), e portanto ||y x|| ||y v||.
Resta demonstrar a unicidade, o que fazemos com base no lema. Supondo haver dois
pontos de mnimo x1 , x2 M teramos:
hy x1 , v x1 i 0 v = x2 M = hy x1 , x2 x1 i 0
hy x2 , v x2 i 0 v = x1 M = hy x2 , x1 x2 i 0, e somando obtemos
hx1 x2 , x1 x2 i 0, o que implica x1 = x2 .
Corolrio do Lema
hy x, vi = 0, v S,
|F (v)|
||F ||H 0 = sup
v6=0 ||v||H
relembrando que como |F (v) F (w)| ||F ||H 0 ||v w||H se for limitado, essa limitao da
norma implica a continuidade.
47
Teorema 12. (de Representao de Riesz). Seja H um espao de Hilbert. Dado um
funcional F H 0 , existe um e um s f H :
F (v) = hf, vi v H,
g
g = g ProjM (g), g = .
||g ||
e portanto g M .
Dado qualquer v H, definimos = F (v)/F (g ) e w = v g M, podemos escrever
trivialmente
v = g + w,
e como, 0 = g , w = g , v
g = g , v (porque || g || = 1), ou seja
F (v)
= = g , v F (v) = F (
g ) g , v
F (
g )
g )
e portanto definindo f = F ( g temos F (v) = hf, vi (notando que isto foi demonstrado
para qualquer v H).
Finalmente, aplicando a desigualdade de Cauchy-Schwarz | hf, vi | ||f ||H ||v||H
|F (v)| | hf, vi |
||F ||H 0 = sup = sup ||f ||H
v6=0 ||v||H v6=0 ||v||H
| hf, f i | | hf, vi |
||f ||H = sup = ||F ||H 0 ,
||f ||H v6=0 ||v||H
juntando as desigualdades ||f ||H ||F ||H 0 ||f ||H conclui-se a isometria.
(em que p, q C[0, 1], so funes positivas), tem soluo nica em u H01 (0, 1), qualquer
que seja f H 1 (0, 1).
48
2.2.1 Transformada de Fourier e solues fundamentais
A transformada de Fourier contnua definida em todo R como um integral
F(f )() = f (x)eix dx
R
F(Du) = pD (i)F(u)
= (a0 + a1 (i) + ... + am (i)m ) F(u).
= F(pD (i)1 ),
49
basta fazer a convoluo com a soluo fundamental, ou seja
u = f,
pois Du = f implica
50
Captulo 3
f : HR
f (z) f (y), y
(dizemos ainda ser estrito se f (z) < f (y), y , y 6= z). Neste caso escreve-se
z = arg min f (y), quando f (z) = min f (y) .
y y
Por outro lado, dizemos que z H um ponto de mnimo relativo de f se existir uma
vizinhana Vz 3 z, tal que
f (z) f (y), y Vz H
(da mesma forma, dizemos ser estrito se f (z) < f (y), y Vz , y 6= z).
51
onde fx0 L(H, R) a derivada de Frchet, uma forma linear, e onde fx00 B(H H, R)
a segunda derivada de Frchet, uma forma bilinear.
Quando H = RN temos fx0 (h) = h> f (x) (a derivada o gradiente) e fx00 (h, h) =
> 2
h f (x)h (a segunda derivada a matriz Hessiana 2 f (x)), ficando
b(h, h) 0, h H.
52
com h = ||h||h. 0, mas tambm usando h,
Isto significa f 0 (h) 0, logo
temos f 0 (h)
z z
= 0, (h
fz0 (h) : ||h||
= 1) = f 0 (h) = 0 (h)
z
= 0, temos
O outro resultado anlogo, porque como fz0 (h)
f (z + h) f (z) h) h),
+ o(1) f 00 (h,
0 = fz00 (h, z
||h||2
h)
o que implica fz00 (h, 0 para qualquer h.
3.1.2 Convexidade
Definio 21. Dizemos que f convexa em H ( convexo) se
(e dizemos ser estritamente convexa se a desigualdade for estrita para x 6= y com (0, 1)).
NOTA: A frmula acima, resulta de considerar a aproximao do funcional A(f ) = f (z) com
o que uma frmula de grau 1 com erro A(f ) Q(f ) = A(f p1 ), ou seja,
1
A(f ) Q(f ) = f 00 ()(1 )(y x)2 .
2
Observao 30. Num contexto mais geral, podemos ver que a Hessiana semidefinida
positiva se e s se f for convexa.
y = (1 )z + y Vz
53
tendo-se f (z) f (
y ). Por convexidade,
f (z) f (
y ) f ((1 )z + y) (1 )f (z) + f (y),
subtraindo, isto implica f (z) f (y), logo f (z) f (y). Por isso trata-se de um mnimo
absoluto, global.
Por outro lado, se x, z fossem pontos de mnimo absoluto distintos, com f (x) = f (z),
ento
f (x + (1 )z) < f (z) + (1 )f (z) = f (z),
mas f (z) deveria ser mnimo, o que contradio.
Exemplo 16. A norma uma funo convexa, porque sendo f (x) = ||x||,
fx0 = 0.
Numa situao geral para funcionais regulares (F-diferenciveis), isto tambm uma condio
necessria. Por isso, uma estratgia para resolver o problema de minimizao ser procurar
os valores x que tenham derivada de Frchet nula.
No caso geral isso corresponde a resolver
z: fz0 (h) = 0, h H.
54
3.2.1 Exemplo - Mnimos Quadrados
O problema de mnimos quadrados consiste na determinao da melhor aproximao x
S H (onde S um subespao de dimenso finita do espao de Hilbert H), que minimiza
a distncia a uma certa norma H. Isto corresponde a minimizar ||x ||, ou o seu
quadrado, o funcional f : S H R
fx0 (h) = 0 hx , hi = 0
f (x) = 0.
Este sistema pode ser resolvido usando os mtodos habituais: Newton, Broyden, ou
iterao do ponto fixo.
Por exemplo, para o Mtodo de Newton, comeando com x(0) , encontramos x(1) =
x(0) + h, resolvendo o sistema linear
55
- minimizar ||f (x)|| ou ||f (x)||2 equivale a encontrar a raiz, pois o mnimo ser zero, e
o ponto de mnimo verifica
||f (x)|| = 0 f (x) = 0.
Para esse efeito, consideramos um algoritmo geral A que devolve a iterada xk+1 baseado
na funo e num conjunto de pontos anteriores.
xk+1 = A(f, xk , , x0 ),
e este algoritmo pode incluir informao das derivadas, f (m) (xj ), tambm.
Apenas exclumos aqui algoritmos triviais que produzem uma sucesso densa de pon-
tos, para varrer o intervalo, e que so ineficazes. So ineficazes, porque por exemplo por
bisseco sucessiva, isso implicaria considerar 1 + 2M clculos para avaliar o intervalo [0, 1]
com espaamento 2M . Assim, para uma inspeco com erro inferior a 0.001 seriam precisos
1000 clculos de f, o que extremamente ineficaz se o clculo de f for moroso.
Observao 31. De qualquer forma, os algoritmos triviais podem ser usados para uma
funo genrica f que tenha um clculo rpido. Por exemplo, se for possvel computar um
milho de vezes f em menos de um segundo, ento a simples avaliao de f (xn ) no intervalo
[0, 1] com
xn = n 106 (n = 0, . . . , N = 106 )
poder permitir encontrar o ponto de mnimo com erro inferior a 106 . Apesar de serem
altamente ineficazes, este algoritmos no devem deixar de ser considerados, quando pouco
se sabe de f.
No entanto, mesmo este procedimento no garante que
N
f (xm ) = min f (xk )
k=0
seja uma boa aproximao de min f (x) porque esse mnimo pode estar longe do xm obtido,
axb
especialmente quando f tem um grande comportamento oscilatrio e a lista de pontos
pequena.
De qualquer forma, o algoritmo de construir uma lista densa de pontos converge, desde
que a funo seja contnua. Simplesmente demasiado ineficaz, e s serve normalmente
para detectar um intervalo onde se aplica outro mtodo mais eficaz.
56
Teorema 15. No h nenhum algoritmo eficaz A que permita obter o mnimo de f para
qualquer f C [a, b].
Demonstrao. Considere a sucesso de pontos (xn ) dada pelo algoritmo A e assuma que
xn x, onde x [a, b] um mnimo absoluto de uma funo f C [a, b]. Ento podemos
considerar uma funo f que coincide com f em todos os pontos da sucesso (xn ) at s
derivadas de ordem m, mas que tem um ponto de mnimo absoluto em x 6= x.
Esta funo f pode ser facilmente considerada diferente em [ x , x + ] [a, b] tal que
xn x , x + ] (porque o algoritmo eficaz e no gera um conjunto denso em [a, b]).
/ [
Por isso como f = f excepto no intervalo (x , x + ), tomando f( x) < f (x), o algortimo
produzir os mesmos resultados, ignorado o intervalo ( x , x + ), e cair no ponto de
mnimo de f que no o de f. Ou seja, como xn x , x + ], a sucesso
/ [
xk+1 = A(f, xk , , x0 ) = A(f, xk , , x0 )
converge para x, que no x, ponto de mnimo para a funo f.
Observao 32. Exclui-se da situao anterior o caso em que a funo convexa, porque
no haveria dois mnimos relativos, e exclui-se tambm o caso em que a funo analtica.
No caso em que a funo analtica, a sucesso de pontos (xn ) definiria a funo de forma
nica, e no seria possvel construir o contraexemplo.
Algoritmos Seccionais
Consideramos a0 = a, b0 = b, e um qualquer c0 = c (a, b) que ter menor valor
(porque os extremos no so o mnimo).
Definimos o tripleto (ak , ck , bk ), onde o ponto de mnimo deste conjunto est em ck .
A iterao consiste em tomar um novo dk (ak , bk )\{ck } e test-lo:
57
Caso ck < dk .
Se f (dk ) < f (ck ) ento (ak+1 , ck+1 , bk+1 ) = (ck , dk , bk ), seno (ak+1 , ck+1 , bk+1 ) =
(ak , ck , dk ),
Caso dk < ck .
Se f (dk ) < f (ck ) ento (ak+1 , ck+1 , bk+1 ) = (ak , dk , ck ), seno (ak+1 , ck+1 , bk+1 ) =
(dk , ck , bk ).
58
3.4.2 Aproximao Quadrtica
Uma outra estratgia consiste em considerar que f se comporta como uma funo quadrtica
prximo do mnimo, e aproximar por interpolao em trs pontos calculados antes
(xn2 , f (xn2 )), (xn1 , f (xn1 )), (xn , f (xn ))
o polinmio interpolador fica
xxn1 xxn2 xxn2 xxn1
p2 (x) = xxn
xn2 xn1 xn2 xn
f (xn2 ) + xxn
xn1 xn2 xn1 xn
f (xn1 ) + xn1 xn2 xn xn1
f (xn ).
Resolvendo p02 (xn+1 ) = 0, obtemos
1 f (xn )(x2n1 x2n2 ) + f (xn1 )(x2n2 x2n ) + f (xn2 )(x2n x2n1 )
xn+1 =
2 f (xn )(xn1 xn2 ) + f (xn1 )(xn2 xn ) + f (xn2 )(xn xn1 )
que o ponto de mnimo de p2 e que servir para aproximar o ponto de mnimo de f.
De certa forma semelhante ao mtodo da secante para f 0 , mas evita o clculo das
derivadas, e tal como o mtodo da secante apresenta uma convergncia supralinear. Tam-
bm h formas de circunscrever as iteraes a um intervalo, como o caso do mtodo de
Brent, por adaptao do Mtodo Regula Falsi.
59
Exemplo 18. The golden ratio search is a descent method. Consider Z = f, and we
may consider A to be the algorithm that constructs the sequence (cn ), since f (cn+1 ) =
f (A(cn )) < f (cn ) if cn 6= z, where z is the unique minimum point in X = [a, b].
xn+1 = xn + n dn ,
Proposio 12. Para uma funo Frchet-diferencivel, se fx0 n (dn ) < 0 ento dn uma
direco de descida.
f (xn+1 ) f (xn )
= fx0 n (dn ) + o(||dn ||) < 0
60
3.5.1 Mtodo do Gradiente
O exemplo mais conhecido de mtodo de descida o Mtodo do Gradiente ou do Mximo
Declive (steepest descent), que corresponde a escolher a direco do gradiente como descida
dn = f (xn ),
Demonstrao. Basta notar que f (xn )> dn = f (xn )> f (xn ) = ||f (xn )||2 < 0, at
que f (xn ) = 0, sendo a ponto crtico e xn seria o mnimo.
Exemplo 19. Considere a funo f (x) = e2x1 + ex1 x2 + 4x2 , onde temos
Neste caso fcil determinar os pontos crticos porque de f (x) = (0, 0) temos
( ( ( (
2e2x1 ex1 x2 = 0 2e2x1 = 4 x1 = 12 log 2 x1 = 12 log 2
4 ex1 x2 = 0 ex1 x2 = 4 12 log 2 x2 = 2 log 2 x2 = 23 log 2
Este x = 12 (1, 3) log 2 um ponto de mnimo estrito, conforme podemos ver pela matriz
Hessiana
4e 1 + ex1 x2 ex1 x2
2x
12 4
f (x) = =
ex1 x2 ex1 x2 |{z} 4 4
x= 12 (1,3) log 2
g 0 () = 2e2 + 4e4 12 = 0
equivalente a 4 2 2/ 12 = 0, com = e2 .
2 (n) > 2
f (x(n+1) ) = f (x(n) ) + d(n) f (x(n) ) + (d ) f (x(n) )d(n) + o( 2 )
2
e tomamos a direco do Mtodo de Newton
61
o que equivalente a resolver o sistema linear
f (x(n+1) ) f (x(n) )
= d(n) f (x(n) ) + (d(n) )> 2 f (x(n) )d(n) + o()
2
= f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) )
(d(n) )> 2 f (x(n) )[2 f (x(n) )]1 f (x(n) ) + o()
2
= f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) )
+ f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) ) + o()
2
= (1 + )f (x(n) )> ([2 f (x(n) )]1 )> f (x(n) ) + o()
2
Quando a Hessiana uma matriz definida positiva, tambm a sua inversa e temos
quando x(n) no um ponto crtico. Assim, quando 0 < < 2, suficientemente pequeno,
obtemos um mtodo de descida.
De novo podemos usar um algoritmo de pesquisa linear para obter n > 0, que minimize
ou pelo menos, tal que f (x(n+1) = g(n ) < g(0) = f (x(n) ), para garantir a descida no caso
da pesquisa linear inexacta.
Proposio 14. Para f C 2 , o mtodo de Newton com pesquisa linear tem pelo menos
convergncia quadrtica.
o que corresponde a tomar n = 1. Por isso se considerarmos n tal que g(n ) < min{g(0), g(1)},
temos um mtodo de descida melhor que o clssico que tinha j convergncia quadrtica.
No Mtodo de Newton para garantir a descida precisamos que a matriz Hessiana seja
definida positiva nos pontos de clculo. Se isto esperado perto do ponto de mnimo estrito,
pode no ser verdade em pontos mais distantes, por isso vamos considerar uma variante,
que corresponde ao Mtodo de Levenberg-Marquardt.
62
3.5.3 Mtodo de Levenberg-Marquardt
No Mtodo de Levenberg-Marquardt consideramos um parmetro n 0 e a direco
M = n I + 2 f (x(n) )
Observao 36. Uma outra possibilidade considerar a diagonal da matriz hessiana ao invs
de I.
dado um (0, 1) fixo. Podemos comear com 0 > 0, e definir um factor multiplicativo
> 1, tal que n no seja demasiado pequeno.
63
O algoritmo reduz-se a:
Se
g(k ) g(0) + g 0 (0)k ,
tomamos k+1 = k , at que a regra no se verifique (a usamos n = k ).
Por outro lado se comearmos com 0 que no verifica a regra de Armijo, tomamos
< 1 e procedemos de forma semelhante
k+1 = k ,
Observao 37. Teste de Goldstein. semelhante regra de Armijo agora com (0, 21 ),
e com
g(0) + (1 )g 0 (0) < g() g(0) + g 0 (0).
A primeira desigualdade adicionada para que no seja demasiado pequeno.
Exemplo 20. Vejamos um exemplo para aplicao da Regra de Armijo na pesquisa linear
inexacta associada ao mtodo do gradiente.
Seja
f (x) = (x1 + 2)2 + (x2 1)2 + 3x1 + 2,
e comeamos com x(0) = (0, 0). Como
7 + 2x1
f (x) = ,
2 + 2x2
(0) (0) 7
a direco do gradiente d = f (x ) = . Temos assim
2
7
x(1) = x(0) + d(0) = ( , 1)
2
que imediatamente o ponto de mnimo da forma quadrtica f.
Porm aqui o objectivo ilustrar a Regra de Armijo.
Neste caso g 0 (0) = 53, e tomando = 0.5, comeando com 0 = 1 obtemos
64
3.6.2 Teste de Wolfe
O tese de Wolfe usa alternativamente
g 0 () (1 )g 0 (0)
para assegurar que no demasiado pequeno.
Note-se que quando consideramos g(0) g() + g 0 ()(0 ) ento
g() g(0) g 0 ()
e a primeira desigualdade fica
g(0) + (1 )g 0 (0) < g() (1 )g 0 (0) < g() g(0)
o que leva (aproximadamente) ao teste de Wolfe
(1 )g 0 (0) < g() g(0) g 0 ().
65
Observao 38. O valor dado para n no caso de sistemas lineares pode ser adoptado como
iterada inicial no mtodo do gradiente (verso exacta ou inexacta), usando
pois na vizinhana do ponto de mnimo a funo comporta-se como uma forma quadrtica
onde a matriz hessiana A.
Assim, por vezes o mtodo do gradiente mais simplesmente tomado como
x(n+1) = x(n)
f (x(n) )
usando
||f (x(n) )||2
=
||f (x(n) )||2[2 f (x(n) )]
como aproximao do valor exacto n , algo que poder ser melhorado usando os algoritmos
de pequisa linear inexacta (Armijo, Goldstein, ou Wolfe).
Proposio 15. O mtodo do gradiente para minimizao quadrtica verifica a estimativa
de erro
max min (n)
||e(n+1) ||A ||e ||A
max + min
exibindo convergncia linear.
Demonstrao. [ver Luenberger]
66
d(n) r (n)
ou seja n = ||d(n) ||2A
, e o Mtodo das direces conjugadas fica
Teorema 17. O mtodo das direces conjugadas atinge a soluo depois de N iteraes
(onde N a dimenso da matriz A).
ou seja
e(k) = e(k1) k1 d(k1) = = e(0) 0 d(0) k1 d(k1) .
Por outro lado podemos escrever e(0) na base A-conjugada
onde pk a A-projeco
e(0) , d(k) A
pk = .
||d(k) ||2A
para k = 0, . . . , N 1.
Observao 39. Para construir as direces conjugadas a partir das direces do gradiente
r(k) , usamos o processo de Gram-Schmidt, comeando com
d(0) = r(0) ,
k1
(j) (j)
(k) (k)
X r , d A (j)
d =r d
j=0
||d(j) ||2A
o que leva a
||r(k) ||2 (k1)
d(k) = r(k) + d .
||r(k1) ||2
67
3.8 Mtodos dos Gradientes Conjugados
As direces conjugadas podem ser aplicadas ao mtodo do gradiente, usando
r(k) = f (x(k) ),
mas agora notamos que algumas expresses que seriam equivalentes no caso quadrtico
podem deixar de o ser neste caso mais geral. Do assim origem a mtodos diferentes, por
exemplo:
- as variantes Fletcher-Reeves e Polak-Ribire.
onde o k deve ser encontrado pela pesquisa linear com a funo habitual
68
3.9 Mtodos Quasi-Newton
H diversas formas de evitar o clculo da matriz hessiana para a implementao do mtodo
de Newton. Assim, no teremos o mtodo de Newton, mas suas aproximaes, que so
chamadas Mtodos Quasi-Newton.
Tal como no caso do Mtodo de Broyden para resolver sistemas no lineares, podemos
considerar uma aproximao do tipo secante, usando uma matriz B em vez da hessiana
H = 2 f (x(k) ), que verifica
Duas escolhas habituais para Bk surgem dos algoritmos DFP e BFGS, que so casos
particulares destes mtodos de Broyden.
onde a direco
d(k) = Bk1 f (x(k) ),
e onde k procurado minimizar g() = f (x(k) + d(k) ), por pesquisa exacta ou inexacta.
Alternativamente podemos considerar a variante BFGS (Broyden-Fletcher-Goldfarb-
Shanno)
(k) (k) (k) (k)
hy [hy ]> Bk hx [Bk hx ]>
Bk+1 = Bk + (k) (k) (k) (k)
,
[hy ]> hx [hx ]> Bk hx
69
com inversa dada pela frmula de Sherman-Morrison
! !
(k) (k) > (k) (k) > (k) (k)
1 h x [hy ] 1 h y [hx ] hx [hx ]>
Bk+1 = I (k) (k) Bk I (k) (k) + (k) (k)
[hx ]> hy [hy ]> hx [hy ]> hx
e um processo semelhante considerado.
Observao 41. Estes dois mtodos podem ser agrupados numa combinao convexa (famlia
de Broyden)
BF GS DF P
Bk+1 = (1 k )Bk+1 + k Bk+1
com um parmetro fixo ou varivel k [0, 1]. A combinao convexa tanto pode ser usada
directamente em Bk ou na sua inversa Bk1 , dependendo na forma de avaliao de d(k) (ou
seja, resolver um sistema, ou calcular a inversa).
Como a dependncia nos coeficientes x1 , x2 deixou de ser linear, o procedimento dos mnimos
quadrados habituais deixa de ser possvel.
70
No caso em que H = RN e em que F (x) RM , temos
F (x)> F (x) = 0.
Ou seja
F F
(t )
x1 1
(t )
x1 M F (t1 )
.. .. .. ..
=0
. . . .
F F
xN 1
(t ) (t )
xN M
F (tM )
Exemplo 22. No exemplo considerado antes, com F (x1 , x2 )(t) = x1 ex2 t g(t), obtemos
ex2 t1 x1 t1 ex2 t1 g(t1 ) x1 ex2 t1
F (x) = ... ..
, F (x) =
..
. .
x2 tM x2 tM x2 tM
e x1 tM e g(tM ) x1 e
ficando PM
k=1 (g(tk ) x1 ex2 tk )ex2 tk
> 0
F (x) F (x) = =
PM x2 tk x2 tk
0
k=1 (g(tk ) x1 e )x1 tk e
x(k+1) = x(k) + h,
como tambm uma direco de descida, e nesse caso x(k+1) = x(k) + h, onde determi-
nado pelos mtodos de pesquisa linear.
71
Observao 42. Pelo mtodo de Gauss-Newton
e portanto pode ser visto como uma aplicao do mtodo do ponto fixo usando
(J > J + I) h = J > f
72
Captulo 4
min f (x)
xR N
Definio 24. Seja f contnua, dizemos que z um ponto de mnimo local se existir
uma vizinhana Vz :
f (x) f (z), x Vz ;
e dizemos ser estrito se f (x) > f (z) quando x 6= z, x Vz .
No caso de minimizao com restries o ponto de mnimo pode estar no interior, z ,
ou num ponto da fronteira, z .
Definio 25. A restrio ci diz-se Activa em x , se ci (x) = 0. As restries de
o conjunto de ndices das
desigualdade dizem-se inactivas se ci (x) > 0. Para cada x ,
restries activas :
A(x) = E {i D : ci (x) = 0}.
Para evitar condies redundantes no mesmo ponto, quando ci so diferenciveis, tam-
bm assumimos independncia linear dos gradientes.
Definio 26. (LICQ - Linear independence constraint qualification). A condio LICQ
vlida em z, se o conjunto de funes
73
4.1 Condies KKT
Ao problema de minimizao com restries associamos a funo lagrangiana
X
L(x, ) = f (x) i ci (x),
iED
o que nos d
2x1 4x2 + 2x1
L(x, ) = =0
4x1 2x2 + 2x2
e podemos resolver este sistema pelo mtodo de Newton.
O mtodo de Newton envolve aqui a matriz Hessiana de L que pode ser escrita, no caso
de restries de igualdade, na forma seguinte
2x L c
HL (x, ) =
(c)> 0
74
onde c a matriz jacobiana relativa s condies c, e onde 2x L representa a matriz
hessiana apenas em termos das condies sobre x.
Neste caso, como
2 + 2 4
2
x L = , c = [2x1 2x2 ]>
4 2 + 2
obtemos
2 + 2 4 2x1
HL (x, ) = 4 2 + 2 2x2
2x1 2x2 0
o que tambm poderia ser obtido por clculo directo.
Assim, o mtodo de Newton consistiria na resoluo sucessiva dos sistemas
HL (x(n) , (n) )s(n) = L(x(n) , (n) )
que definem a nova iterada (x(n+1) , (n+1) ) = (x(n) , (n) ) + s(n) .
No caso mais geral, devemos ainda considerar a possibilidade de restries de desigual-
dade, e iremos ver como estas so usadas.
Definio 27. Definimos o conjunto
( ( )
d ci (z) = 0, (i E)
F1 (z) = d : > 0, ,
d ci (z) 0, (i D A(z))
75
Exemplo 24. Consideramos o problema de minimizao de
f (x) = (x1 2)2 + 2x22
com as restries de desigualdade
c1 (x) = 1 x1 x2 , c2 (x) = x2 x1 + 1, c3 (x) = x1 .
Nota: aqui sabemos imediatamente que o ponto de mnimo z = (1, 0).
O gradiente do Lagrangiano dado por
L(z, ) = f 1 c1 2 c2 3 c3
2(x1 2) 1 1 1
= 1 2 3
4x2 1 1 0
Pelo que as condies KKT ficam:
2(x1 2) + 1 + 2 3 0
=
4x2 + 1 2 0
com as restries
x1 1 x2 1 x1 ; x1 0
com 1 , 2 , 3 0, e com
1 (1 x1 x2 ) = 0
2 (x2 x1 + 1) = 0
3 x 1 = 0
76
Observao 45. Fazemos notar que no caso em que h apenas restries lineares, ou seja em
que a funo c linear (ou afim) as segundas derivadas so nulas, tendo-se uma coincidncia
das matrizes hessianas: HL = Hf .
Podemos ainda considerar a matriz jacobiana das restries activas
R = [ci (z)](iA(z),i >0)
que ser uma matriz M N em que M N o nmero das restries activas consideradas.
Se a condio LICQ for verificada a caracterstica da matriz R ser M e o ncleo ter
dimenso N M.
Verifica-se ainda facilmente que Ker(R) = F2 (, z).
Definindo uma matriz S em que as suas colunas formam uma base de Ker(R), ou seja
RS = 0, e escrevendo ento os vectores de F2 (, z) na forma w = Sv, podemos reescrever
as condies de 2 ordem, sobre a matriz Hessiana do Lagrangiano, numa forma diferente:
(Sv) HL (z)(Sv) 0, v RN M
que corresponde condio de HL ser definida positiva em F2 (, z); e de forma semelhante
a condio definida positiva, com a desigualdade estrita (... > 0, se v 6= 0).
No caso em que M = N, temos Ker(R) = F2 (, z) = {0} e a matriz hessiana a
trivialmente definida positiva, o que podemos resumir na seguinte proposio:
Proposio 17. Se a condio KKT satisfeita com o par (z, ) e o conjunto dos gradi-
entes com restries activas linearmente independente
N = dim{ci (z) : i A(z), i > 0 (i D)}
ento z soluo local estrita de (P).
77
Observao 46. O mesmo processo pode ser aplicado noutros casos em que seja possvel
uma simplificao, escrevendo algumas variveis em funo das restantes. Por exemplo,
sendo
f (x) = (x1 + x2 )2 + x43 + e6x4
com restries c1 (x) = x1 + x2 ex4 = 0, c2 (x) = x3 x1 x2 = 0, podemos definir
imediatamente x3 = x1 + x2 = ex4 , obtendo um problema de minimizao a uma s varivel
f = Gx + d, c = A,
G A
x d
= .
A 0 b
onde > 0 um parmetro suficientemente grande, que pode ser redimensionado a cada
passo.
78
Exemplo 25. Por exemplo no caso em que procuramos
min f (x)
definido por ci (x) 0, (i D), podemos definir
com
X
F (x) = f (x) + P (ci (x))
iD
onde
P (ci (x)) = min{0, ci (x)}2 .
Comeamos com > 0 e resolvemos o problema sem restries para F . A cada aumento
do valor de podemos usar o valor obtido anteriormente.
79
Referncias Bibliogrficas
[4] E. Kreyszig. Introductory Functional Analysis with Applications. Wiley, New York 1989
[5] R. Kress. Linear integral equations. App. Math. Sci. 82, Springer-Verlag 1999
[10] E. Zeidler. Nonlinear Functional Analysis and Its Applications. Springer-Verlag, New
York 1989
80