Escolar Documentos
Profissional Documentos
Cultura Documentos
Curitiba
2010
Sumário
Prefácio 1
Introdução 2
1 Revisão de Conceitos 4
1.1 Sequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Definições e resultados clássicos . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Velocidade de convergência . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Noções de topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Resultados de álgebra linear . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Fórmula de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Exercı́cios do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Convexidade 27
3.1 Conjuntos convexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Funções convexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Exercı́cios do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Algoritmos 35
4.1 Algoritmos de descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Métodos de busca unidirecional . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.1 Busca exata - método da seção áurea . . . . . . . . . . . . . . . . . 38
4.2.2 Busca inexata - condição de Armijo . . . . . . . . . . . . . . . . . . 43
4.3 Convergência global de algoritmos . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Convergência global de algoritmos de descida . . . . . . . . . . . . 46
4.3.2 Teorema de Polak . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Exercı́cios do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
ii
5 Métodos de Otimização 52
5.1 Método de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.2 Convergência global . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.3 Velocidade de convergência . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Método de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.2 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.3 Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Método de região de confiança . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.2 O passo de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3.3 Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.3.4 O método dogleg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.4 Exercı́cios do capı́tulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.5 Implementação computacional . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5.1 Funções para teste . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
iii
Prefácio
O objetivo deste texto é oferecer tanto para os alunos quanto para os professores
um material didático para a disciplina de otimização.
Ademir e Elizabeth
Curitiba, 03 de Março de 2010.
Introdução
Otimização, direta ou indiretamente, faz parte do nosso dia a dia. Muitas vezes
nem nos damos conta, mas estamos otimizando algo.
Mais formalmente, podemos dizer que otimização consiste em encontrar pontos
de mı́nimo ou de máximo de uma função real sobre um conjunto Ω ⊂ IRn . Isto pode ser
colocado na forma
minimizar f (x)
(PΩ )
sujeito a x ∈ Ω.
minimizar f (x)
(P ) sujeito a g(x) ≤ 0
h(x) = 0.
∑
m
∗
∇f (x ) + λ∗i ∇hi (x∗ ) = 0.
i=1
Revisão de Conceitos
1.1 Sequências
Uma sequência em IRn é uma aplicação k ∈ IN → xk ∈ IRn , definida no conjunto
IN dos números naturais. Denotaremos uma sequência por (xk )k∈IN , ou simplesmente por
(xk ). Por conveniência, consideramos que IN = {0, 1, 2, 3, . . .}.
k ≥ k0 ⇒ kxk − ak < ε.
Neste caso, também dizemos que a sequência (xk ) converge para a e indicamos este fato
por xk → a ou lim xk = a.
k→∞
Teorema 1.2 Se uma sequência (xk ) converge para um limite a, então toda subsequência
(xki ) também converge para a.
4
Revisão de Conceitos 5
Demonstração. Dado ε > 0 existe um k0 tal que para todo k > k0 tem-se kxk − ak < ε.
Como os ı́ndices da subsequência formam um subconjunto infinito, existe entre eles um
ki0 ≥ k0 . Então para ki ≥ ki0 temos ki ≥ k0 . Logo kxki − ak < ε.
O limite de uma subsequência (xk )k∈IN0 é chamado valor de aderência ou ponto
de acumulação da sequência (xk ).
Exercı́cios 1.3
1
1. Considere a sequência xk = (−1)k + . Mostre que (xk ) tem dois pontos de
k+1
acumulação e portanto não é convergente.
2. Podemos dizer que se a sequência tem um único ponto de acumulação, então ela é
convergente?
3. Considere uma sequência (xk ) ⊂ IR. Se xk → a > 0 então existe k0 ∈ IN tal que
a
para k ≥ k0 tem-se xk ≥ .
2
Definição 1.4 Uma sequência (xk ) ⊂ IRn é limitada, quando o conjunto formado pelos
seus elementos é limitado, ou seja, quando existe um número real M > 0 tal que kxk k ≤ M
para todo k ∈ IN.
Definição 1.5 Seja (xk ) ⊂ IR uma sequência limitada. Definimos o limite inferior da
sequência (xk ) como seu menor ponto de acumulação e denotamos por lim inf xk . Analo-
gamente definimos o limite superior da sequência como seu maior ponto de acumulação
e denotamos por lim sup xk .
Exercı́cios 1.6
1
1. Determine lim inf xk e lim sup xk , sendo xk = (−1)k + .
k+1
2. Faça o mesmo para (xk ) = (1, 2, 3, 1, 2, 3, . . .).
Definição 1.7 Sejam (vk ) ⊂ IRn e (λk ) ⊂ IR − {0} sequências com λk → 0. Dizemos que
vk
vk = o(λk ) quando → 0. Mais geralmente, considere g : J ⊂ IR 7→ IRn com 0 sendo
λk
um ponto de acumulação de J. Dizemos que g(λ) = o(λ) quando g(λk ) = o(λk ) para toda
sequência (λk ) ⊂ J com λk → 0.
Teorema 1.10 Uma sequência limitada em IRn é convergente se, e somente se, possui
um único ponto de acumulação.
Teorema 1.12 Seja (xk ) ⊂ IR uma sequência monótona que possui uma subsequência
IN0
convergente, digamos xk → a. Então xk → a.
Demonstração. Suponha que (xk ) é não crescente (o caso não decrescente é análogo).
Afirmamos que xk ≥ a, para todo k ∈ IN. De fato, do contrário existiria k0 ∈ IN tal que
xk ≤ xk0 < a, para todo k ∈ IN, k ≥ k0 . Assim nenhuma subsequência de (xk ) poderia
convergir para a. Provamos então que (xk ) é monótona e limitada. Pelo Teorema 1.9,
temos que xk → a.
1 1 1
xk = , yk = e zk = .
k+5 3k 22k
Vemos que todas elas convergem para 0, mas não com a mesma rapidez, conforme sugere
a tabela abaixo.
k 1 2 3 4 5 6 7 8
xk 0.1667 0.1429 0.1250 0.1111 0.1000 0.0909 0.0833 0.0769
yk 0.3333 0.1111 0.0370 0.0123 0.0041 0.0014 0.0005 0.0002
zk 0.2500 0.0625 0.0039 0.00001 0.0000000002 0.0... 0.0... 0.0...
Definição 1.13 Dizemos que a sequência (xk ) ⊂ IRn converge linearmente para x̄ ∈ IRn
quando existe uma constante r ∈ [0, 1) e um número natural k0 ∈ IN, tais que
kxk+1 − x̄k
≤ r, (1.1)
kxk − x̄k
Revisão de Conceitos 7
para todo k ≥ k0 .
1
Exemplo 1.15 A sequência y k = converge linearmente para 0.
3k
Resolução. Basta notar que
ky k+1 k 1
= .
ky k
k 3
Definição 1.16 A sequência (xk ) ⊂ IRn converge superlinearmente para x̄ ∈ IRn quando
kxk+1 − x̄k
→ 0. (1.2)
kxk − x̄k
Definição 1.18 A sequência (xk ) ⊂ IRn converge quadraticamente para x̄ ∈ IRn quando
xk → x̄ e existe uma constante M > 0 tal que
kxk+1 − x̄k
≤ M. (1.3)
kxk − x̄k2
É importante observar que apenas a condição (1.3) não implica que xk → x̄, como
podemos ver na sequência xk = 2k .
Revisão de Conceitos 8
1
Exemplo 1.19 A sequência z k = converge quadraticamente para 0.
22k
Resolução. Temos
kxk+1 k
k
(22 )2
= = 1.
kxk k2 22k+1
1
Exemplo 1.20 A sequência xk = converge superlinearmente mas não quadratica-
k!
mente para 0.
Resolução. Temos
kxk+1 k k! 1
= = → 0.
kxk k (k + 1)! k+1
e
kxk+1 k (k!)2 k! k
= = = (k − 1)! → ∞.
kx k
k 2 (k + 1)! k+1 k+1
Exercı́cios 1.21
1
1. Estude a convergência de xk = .
kk
2. Faça o mesmo para xk = e−k .
2
Definição 1.23 Um conjunto X é fechado quando contém sua fronteira, ou seja, quando
∂X ⊂ X. Se além disso X for limitado, diremos que ele é compacto.
De forma equivalente, podemos dizer que X ⊂ IRn é compacto se, e somente se,
toda sequência de elementos de X possui uma subsequência que converge para algum
elemento de X.
Exercı́cios 1.24
Definição 1.26 Um conjunto X ⊂ IRn é aberto, quando todos os seus pontos são interi-
ores, ou seja para todo a ∈ X existe δ > 0 tal que B(a, δ) ⊂ X.
Definição 1.27 O núcleo de uma matriz A ∈ IRm×n , denotado por N (A), é um subcon-
junto de IRn formado por todas as soluções do sistema homogêneo Ax = 0, ou seja,
Temos que N (A) é um subespaço vetorial de IRn . O número dim(N (A)) é cha-
mado nulidade de A.
Note que Im(A) é o espaço vetorial gerado pelas colunas de A, chamado espaço
coluna de A. O posto de A é definido por posto(A) = dim(Im(A)).
Prova-se em álgebra linear que posto(A) = posto(AT ), ou seja, o espaço-linha e
o espaço-coluna de A tem a mesma dimensão. Portanto, posto(A) ≤ min{m, n}. Quando
ocorre a igualdade na expressão acima, dizemos que a matriz A tem posto cheio ou
posto completo e em consequência disto, ou as colunas ou as linhas de A são linearmente
independentes.
Outro fato clássico afirma que dim(N (A)) + dim(Im(A)) = n, o que equivale a
Exercı́cios 1.30
Definição 1.33 Seja A ∈ IRn×n uma matriz simétrica. Dizemos que A é definida positiva
quando xT Ax > 0, para todo x ∈ IRn \ {0}. Tal propriedade é denotada por A > 0. Se
xT Ax ≥ 0, para todo x ∈ IRn , A é dita semidefinida positiva, fato este denotado por
A ≥ 0.
( )
a b
Exemplo 1.34 Considere A = . Se A > 0, então a > 0 e det(A) > 0.
b c
( )
x1
Resolução. De fato, dado x = , temos
x2
( ) ( )
1 t
Em particular, fazendo x = , obtemos a > 0. Além disso, tomando x = ,
0 1
obtemos at2 + 2bt + c > 0, para todo t ∈ IR. Isto implica que o discriminante 4b2 − 4ac é
negativo, donde segue que det(A) = ac − b2 > 0.
A recı́proca do fato provado acima também é verdadeira. Mais ainda, o resultado
vale em IRn×n . Veja o Exercı́cio 1.9 no final do capı́tulo.
Podemos inverter as desigualdades na Definição 1.33 para dizer o que é uma
matriz definida negativa ou semidefinida negativa. Entretanto, existem matrizes que não
são nem positivas nem negativas, o que motiva a seguinte definição.
Definição 1.35 Seja A ∈ IRn×n uma matriz simétrica. Dizemos que A é indefinida
quando existem x, y ∈ IRn tais que xT Ax < 0 < y T Ay.
A = P DP T . (1.5)
∑
n
xT Ax = y T Dy = λi yi2 . (1.6)
i=1
Lema 1.36 Se A ∈ IRn×n é uma matriz simétrica com λ1 e λn sendo o menor e o maior
autovalor, respectivamente, então
λ1 kxk2 ≤ xT Ax ≤ λn kxk2 ,
1.5 1.5
1 1
0.5 0.5
0 0
−0.5 −0.5
−1 −1
−1.5 −1.5
−2 −2
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
1 1 1
0 0 0
−1 −1 −1
−2 −2 −2
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Agora considere uma função vetorial f : IRn → IRm . Sua derivada, chamada de jacobiana,
é a matriz
∂f1 ∂f1
∂x1 · · · ∂xn
. ..
Jf = f 0 = .
. ..
. . .
∂fm ∂fm
···
∂x1 ∂xn
Note que a linha i da jacobiana de f é o gradiente transposto da componente fi . Em
particular, para m = 1, temos f 0 = (∇f )T . Além disso, ∇2 f = J∇f .
O gradiente de uma função tem propriedades muito interessantes, tanto algébricas
quanto geométricas. Destacamos abaixo algumas delas.
1. O gradiente é uma direção de crescimento da função;
2. É a direção de crescimento mais rápido;
3. O gradiente é perpendicular à curva de nı́vel da função.
A justificativa dessas afirmações pode ser encontrada no Capı́tulo 3 de [16]. A Figura 1.3
ilustra as propriedades citadas.
Exercı́cios 1.37
Outra relação importante surge quando restringimos uma função definida em IRn
aos pontos de um segmento de reta. Mais formalmente, dados a, d ∈ IRn e f : IRn → IR,
definimos ϕ : I ⊂ IR → IR por ϕ(t) = f (a + td). Vamos calcular as derivadas de ϕ. Temos
ϕ(t + s) − ϕ(t) ∂f
ϕ0 (t) = lim = (a + td) = ∇f (a + td)T d.
s→0 s ∂d
Revisão de Conceitos 14
∑
n
∂f
00 0
Para calcular ϕ , note que ϕ (t) = dj (a + td). Assim
j=1
∂xj
∑
n
∂f
00
ϕ (t) = dj ∇ (a + td)T d = dT ∇2 f (a + td)d.
j=1
∂xj
r(x)
com lim = 0.
x→a kx − ak
r(d)
com lim = 0.
d→0 kdk
Agora podemos nos perguntar qual é a melhor quadrática que aproxima uma
dada função em uma vizinhança de um ponto. A resposta é dada pelo próximo teorema.
1
f (x) = f (a) + ∇f (a)T (x − a) + (x − a)T ∇2 f (a)(x − a) + r(x),
2
r(x)
com lim = 0.
x→a kx − ak2
1
p2 (x) = f (a) + ∇f (a)T (x − a) + (x − a)T ∇2 f (a)(x − a)
2
com
1
f (a + d) = f (a) + ∇f (a)T d + dT ∇2 f (a)d + r(d),
2
r(d)
com lim = 0.
d→0 kdk2
Exemplo 1.40 Considere a função f : IR2 → IR dada por f (x) = x1 cos x2 + x2 sin x1 .
Determine as aproximações de Taylor de ordens 1 e 2 para f em torno de 0. Estime o
erro da linear na região [−1, 1] × [−1, 1].
( )
cos x2 + x2 cos x1
Resolução. Temos ∇f (x) = . Assim, p1 (x) = f (0) + ∇f (0)T x = x1 .
sin x1 − x1 sin x2
√
1 3
Para estimar o erro, note que se |z| ≤ 1, então cos z > e | sin z| < . Portanto,
2 2
f (a + d) = f (a) + ∇f (a + td)T d.
a a+td a+d
Teorema 1.42 (Taylor com resto de Lagrange) Considere f : IRn → IR uma função
de classe C 2 e a ∈ IRn . Então existe t ∈ (0, 1) tal que
1
f (a + d) = f (a) + ∇f (a)T d + dT ∇2 f (a + td)d.
2
1.8. Seja A ∈ IRn×n uma matriz simétrica. Sendo {v1 , v2 , . . . , vn } uma base ortonor-
mal de autovetores e {λ1 , λ2 , . . . , λn } os autovalores associados. Supondo que nenhum
autovalor é nulo, obtenha uma expressão para a inversa A−1 .
1.9. A matriz simétrica A ∈ IRn×n é definida positiva se, e somente se, os determinantes
principais são positivos.
1.10. A matriz simétrica A ∈ IRn×n é definida positiva se, e somente se, todos os seus
autovalores são positivos.
1.11. Seja A ∈ IRm×n uma matriz de posto n. Mostre que AT A é definida positiva.
1.12. Considere g : IRn → IRm e defina f (x) = kg(x)k22 . Calcule ∇f (x) e ∇2 f (x).
1.13. Considere f : IRn → IR dada por f (x) = kAx − bk22 , onde A ∈ IRm×n e b ∈ IRm .
Calcule ∇f (x).
minimizar f (x)
(2.1)
sujeito a x ∈ IRn .
Quando as desigualdades na Definição 2.1 forem estritas para x 6= x̄, diremos que
x̄ é minimizador estrito. Se não for mencionado o conjunto Ω, significa que Ω = IRn .
Veremos em seguida condições que garantem a existência de minimizadores. Na
Seção 2.2 discutiremos critérios de otimalidade.
0
IN
o que implica f (xk ) → f¯. Repetindo o argumento acima, obtemos f (xk ) → f (x̄), com
x̄ ∈ Ω. Pela unicidade do limite, temos f (x̄) = f¯ ≤ f (x), para todo x ∈ Ω, o que completa
a demonstração.
O Teorema 2.2 tem uma consequência interessante, que pode garantir a existência
de minimizador global em IRn .
Corolário 2.3 Seja f : IRn → IR contı́nua e suponha que existe c ∈ IR tal que o conjunto
L = {x ∈ IRn | f (x) ≤ c} é compacto não vazio. Então f tem um minimizador global.
Demonstração. Pelo Teorema 2.2, existe x̄ ∈ L tal que f (x̄) ≤ f (x), para todo x ∈ L. Por
outro lado, se x ∈
/ L, temos f (x) > c ≥ f (x̄). Assim, f (x̄) ≤ f (x), para todo x ∈ IRn .
Exercı́cios 2.4
1. Sejam A ∈ IRn×n uma matriz simétrica e f : IRn → IR dada por f (x) = xT Ax.
Mostre que f tem um minimizador global x̄ em B = {x ∈ IRn | kxk = 1}.
2. Seja A ∈ IRn×n uma matriz simétrica. Usando o exercı́cio anterior, mostre que
existe λ ∈ IR tal que xT Ax ≥ λkxk2 , para todo x ∈ IRn .
Definição 2.5 Dizemos que a função f : IRn → IR é coerciva quando lim f (x) = ∞.
kxk→∞
Teorema 2.6 Seja f : IRn → IR uma função contı́nua e coerciva. Então, f tem um
minimizador global.
Demonstração. Considere a ∈ IRn e b = f (a). Como lim f (x) = ∞, existe r > 0 tal
kxk→∞
que f (x) > b, sempre que kxk > r. Como o conjunto B = {x ∈ IRn | kxk ≤ r} é um
compacto, o Teorema 2.2 garante que existe x̄ ∈ B tal que f (x̄) ≤ f (x), para todo x ∈ B.
Além disso, a ∈ B, pois f (a) = b. Para x ∈/ B, temos f (x) > b = f (a) ≥ f (x̄). Isto prova
que x̄ é minimizador de f .
Observação: o Exercı́cio 2.11 no final do capı́tulo fornece outra demonstração
para o Teorema 2.6.
Exercı́cios 2.7
1. Seja δ > 0 e suponha que dT Ad ≥ 0, para todo d ∈ IRn tal que kdk = δ. Prove que
dT Ad ≥ 0, para todo d ∈ IRn .
Otimização Irrestrita 21
δd
Dica. Considere d ∈ IRn \ {0}. Tomando v = , temos que kvk = δ. Portanto,
kdk
usando a hipótese, temos que
( )2
δ
dT Ad = v T Av ≥ 0.
kdk
Assim, dT Ad ≥ 0.
2. Sejam A ∈ IRn×n uma matriz simétrica, b ∈ IRn e c ∈ IR. Suponha que a função
f : IRn → IR dada por f (x) = xT Ax + bT x + c tem um minimizador local x̄. Mostre
que 2Ax̄ + b = 0. Mostre também que x̄ é minimizador global.
Dica. Dado d ∈ IRn , temos f (x̄ + td) = f (x̄) + t2 dT Ad + t(2Ax̄ + b)T d. Como x̄ é
minimizador local, para t suficientemente pequeno, vale t2 dT Ad + t(2Ax̄ + b)T d ≥ 0.
Portanto, 2Ax̄ + b = 0. Para ver que x̄ é global, note que f (x̄ + d) = f (x̄) + dT Ad +
(2Ax̄ + b)T d = f (x̄) + dT Ad. Como dT Ad ≥ 0 para d próximo de 0, o mesmo vale
para todo d ∈ IRn .
∇f (x̄) = 0. (2.2)
r(t) r(t)
com lim = 0. Usando 2.3 e dividindo por t, obtemos 0 ≤ ∇f (x̄)T d+ . Passando o
t→0 t t
limite quando t → 0, obtemos ∇f (x̄)T d ≥ 0. Se ∇f (x̄) não fosse nulo, poderı́amos escolher
d = −∇f (x̄), resultando em k∇f (x̄)k2 = −∇f (x̄)T d ≤ 0, o que é uma contradição. Logo
∇f (x̄) = 0.
Definição 2.9 Dizemos que um ponto x̄ ∈ IRn é estacionário (ou crı́tico) para o problema
(P ), se vale a condição (2.2).
Otimização Irrestrita 22
dT ∇2 f (x̄)d ≥ 0, (2.4)
t2 T 2
f (x̄ + td) = f (x̄) + t∇f (x̄)T d + d ∇ f (x̄)d + r(t),
2
r(t)
com lim 2 = 0. Como x̄ é minimizador local, o Teorema 2.8 garante que ∇f (x̄) = 0.
t→0 t
Portanto, para t suficientemente pequeno,
t2 T 2
0 ≤ f (x̄ + td) − f (x̄) = d ∇ f (x̄)d + r(t),
2
Exemplo 2.11 Seja f : IR2 → IR dada por f (x) = (x1 − x22 )(x1 − 12 x22 ). Verifique que
x̄ = 0 é o único ponto estacionário de f e não é minimizador. No entanto, fixada qualquer
direção d ∈ IRn \ {0}, x̄ minimiza localmente f ao longo de d.
( )
2x1 − 23 x22
Resolução. Temos ∇f (x) = . Assim, se ∇f (x) = 0, então x = 0. Além
−3x1 x2 + 2x32
( )
2
t t2
disso, f √ 3
= − < 0, o que significa que x̄ = 0 não é minimizador local de f .
t 18
Porém, dado d ∈ IRn \ {0}, temos f (x̄ + td) = t2 (d1 − td22 )(d1 − 21 td22 ). Se d1 = 0, então
f (x̄ + td) = 21 t4 d42 ≥ 0. Caso d1 6= 0, a expressão (d1 − td22 )(d1 − 21 td22 ) é positiva em t = 0
e, por continuidade, também para t próximo de 0. A Figura 2.1 ilustra este exemplo.
Teorema 2.12 (Condição suficiente de 2a ordem) Seja f : IRn → IR duas vezes di-
ferenciável no ponto x̄ ∈ IRn . Se x̄ é um ponto estacionário e se a matriz Hessiana de f
em x̄ é definida positiva, então x̄ é minimizador local estrito do problema (P ).
Demonstração. Seja λ o menor autovalor de ∇2 f (x̄). Como esta matriz é definida positiva,
temos λ > 0. Além disso, pelo Lema 1.36 (veja também Exercı́cios 2.4 da Seção 2.1),
dT ∇2 f (x̄)d ≥ λkdk2 . Por Taylor, já usando o fato de x̄ ser estacionário, temos
1 1
f (x̄ + d) = f (x̄) + dT ∇2 f (x̄)d + r(d) ≥ f (x̄) + λkdk2 + r(d),
2 2
( )
r(d) f (x̄ + d) − f (x̄) λ r(d) λ r(d)
com lim = 0. Assim, ≥ + . Como lim + > 0,
kdk→0 kdk2 kdk2 2 kdk2 kdk→0 2 kdk2
λ r(d)
existe δ > 0 tal que + > 0, para todo d ∈ B(0, δ) \ {0}, donde segue que
2 kdk2
f (x̄ + d) − f (x̄) > 0, para todo d ∈ B(0, δ) \ {0}, ou, equivalentemente,
O próximo teorema nos fornece uma condição suficiente (mas não necessária)
para que um ponto seja sela.
Teorema 2.14 Seja f : IRn → IR duas vezes diferenciável no ponto estacionário x̄ ∈ IRn .
Se ∇2 f (x̄) é indefinida, então x̄ é ponto de sela de f .
Demonstração. Considere d ∈ IRn tal que dT ∇2 f (x̄)d < 0. Por Taylor, já usando o fato
de x̄ ser estacionário, temos
r(t)
com lim = 0. Portanto,
t→0 t2
f (x̄ + td) < f (x̄),
Otimização Irrestrita 24
para todo t suficientemente pequeno. Considere agora v ∈ IRn tal que v T ∇2 f (x̄)v > 0.
Analogamente, podemos concluir que f (x̄ + tv) > f (x̄), para t suficientemente pequeno.
Isto prova que x̄ é ponto de sela.
0.5
−0.5
−1
−1.5
−2
−2 −1 0 1 2
2.2. Considere números reais a < b < c e as funções f, g : IR → IR, definidas por
2.5. Sejam f : IRn → IR contı́nua, x̄ ∈ IRn e f¯ = f (x̄). Suponha que todo x tal que
f (x) = f¯ é um minimizador local de f . Mostre que x̄ é um minimizador global de f .
2.6. Seja f : IR2 → IR dada por f (x) = sin x1 sin x2 + ex1 +x2 . Mostre que x̄ = 0 é ponto
2 2
2.7. Seja f : IR2 → IR dada por f (x) = x21 + x22 − x1 x22 . Determine e faça um esboço do
conjunto {x ∈ IR2 | ∇2 f (x) > 0}.
2.8. Seja f : IR2 → IR dada por f (x) = x21 − x1 x2 + 2x22 − 2x1 + 23 x2 + ex1 +x2 .
( )
1 1
(a) Mostre que x̄ = é um ponto estacionário de f .
3 −1
2.11. Seja f : IRn → IR uma função contı́nua e coerciva. Dado a ∈ IRn , mostre que o
conjunto L = {x ∈ IRn | f (x) ≤ f (a)} é compacto não vazio.
2.12. Sejam f : IRn → IR contı́nua e x̄ ∈ IRn tal que {x ∈ IRn | f (x) ≤ f (x̄)} é limitado.
Mostre que f tem minimizador global.
Capı́tulo 3
Convexidade
y
y
x
x
Exercı́cios 3.2
∩
m
1. Sejam Ci , i = 1, . . . , m conjuntos convexos. Então o conjunto C = Ci também é
i=1
convexo.
27
Convexidade 28
Veremos agora alguns resultados que além de sua importância em análise convexa,
podem também ser usados para provar o clássico Lema de Farkas, fundamental para a
obtenção das condições de Karush-Kuhn-Tucker para problemas com restrições.
Lema 3.3 Sejam u, v ∈ IRn com u 6= v. Se kuk2 = kvk2 = r, então k(1 − t)u + tvk2 < r,
para todo t ∈ (0, 1).
ku − vk2 = uT u − 2uT v + v T v = 0,
completando a demonstração.
S
S z z S projSz z
Lema 3.4 Seja S ⊂ IRn um conjunto fechado não vazio. Dado z ∈ IRn , existe z̄ ∈ S tal
que
kz − z̄k ≤ kz − xk,
para todo x ∈ S.
Convexidade 29
Demonstração. Seja α = inf{kz − xk | x ∈ S}. Então, para todo k ∈ IN, existe xk ∈ S tal
que
1
α ≤ kz − xk k ≤ α + . (3.1)
k
Em particular, kz − xk k ≤ α + 1, para todo k ∈ IN. Logo, existe uma subsequência
IN0
convergente, digamos, xk → z̄. Sendo S fechado, temos que z̄ ∈ S. Além disso,
IN0
kz − xk k → kz − z̄k.
Lema 3.5 Seja S ⊂ IRn um conjunto não vazio, convexo e fechado. Dado z ∈ IRn , existe
um único z̄ ∈ S tal que
kz − z̄k2 ≤ kz − xk2 ,
Demonstração. A existência é garantida pelo Lema 3.4. Para provar a unicidade, suponha
que existam z̄ 6= z̃ em S tais que
kz − z̄k2 = kz − z̃k2 .
1
Por outro lado, o ponto x = (z̄ + z̃) está no convexo S. Além disso, pelo Lema 3.3, com
2
1
r = kz − z̄k2 = kz − z̃k2 e t = , temos
2
contradizendo (3.2).
Vejamos agora o principal resultado desta seção. Por simplicidade vamos indicar
a norma euclidiana por k · k.
Teorema 3.6 Sejam S ⊂ IRn um conjunto não vazio, convexo e fechado, z ∈ IRn e
z̄ = projS (z). Então
(z − z̄)T (x − z̄) ≤ 0,
para todo x ∈ S.
Convexidade 30
Assim,
Como t > 0, temos que 2(z − z̄)T (x − z̄) ≤ tkz̄ − xk2 . Passando o limite quando t → 0,
obtemos
(z − z̄)T (x − z̄) ≤ 0,
S projSz z
Definição 3.7 Seja C ⊂ IRn um conjunto convexo. Dizemos que a função f : IRn → IR
é convexa em C quando
Apesar deste conceito ser muito simples, pode não ser tão fácil provar diretamente
da definição que uma função é convexa, mesmo ela sendo elementar. Verifique isto nos
exercı́cios abaixo.
Exercı́cios 3.8
f(y)
f(y)
f((1−t)x+ty)
(1−t)f(x)+tf(y) (1−t)f(x)+tf(y)
f((1−t)x+ty)
f(x) f(x)
x (1−t)x+ty y x (1−t)x+ty y
O teorema seguinte justifica o fato de funções convexas serem muito bem vistas
em otimização.
Demonstração. Seja δ > 0 tal que f (a) ≤ f (x), para todo x ∈ B(a, δ) ∩ C. Dado
δ
y ∈ C, y ∈/ B(a, δ), tome 0 < t < . Assim, o ponto x = (1 − t)a + ty satisfaz
ky − ak
kx − ak = tky − ak < δ e portanto, x ∈ B(a, δ) ∩ C (veja a Figura 3.5). Deste modo temos
a x y
para todos x, y ∈ C.
Portanto,
f (x + td) − f (x)
f (y) − f (x) ≥ lim+ = ∇f (x)T d = ∇f (x)T (y − x).
t→0 t
completando a demonstração.
O teorema acima tem uma interpretação geométrica simples: dados a, x ∈ C,
temos f (x) ≥ f (a) + ∇f (a)T (x − a), ou seja, uma função convexa está sempre acima da
sua aproximação linear. A Figura 3.6 ilustra o teorema.
A Figura 3.7 ilustra uma situação que satisfaz as condições do Corolário 3.11 e
outra onde isto não se verifica.
y C
y C
x ∇f x
∇f
1
f (x + d) = f (x) + ∇f (x)T d + dT ∇2 f (x + td)d
2
para algum t ∈ (0, 1). Como ∇2 f (x) ≥ 0, concluı́mos que f (x + d) ≥ f (x) + ∇f (x)T d.
Pelo Teorema 3.10, f é convexa.
(ii) Considere primeiro x ∈ int(C). Dado d ∈ IRn , temos que x + td ∈ C, para t
suficientemente pequeno. Portanto, pela convexidade de f e pelo desenvolvimento de
Taylor, obtemos
t2 T 2
0 ≤ f (x + td) − f (x) − t∇f (x)T d = d ∇ f (x)d + r(t),
2
r(t)
onde lim 2 = 0. Dividindo por t2 e passando o limite, obtemos dT ∇2 f (x)d ≥ 0. Agora
t→0 t
considere x ∈ C, arbitrário. Como existe y ∈ int(C), o Exercı́cio 3.1 garante que todos
os pontos do segmento (x, y] estão em int(C). Pelo que já provamos, dados d ∈ IRn e
t ∈ (0, 1], vale dT ∇2 f ((1 − t)x + ty)d ≥ 0. Fazendo t → 0+ , obtemos dT ∇2 f (x)d ≥ 0,
completando a demonstração.
Convexidade 34
3.3. Sejam T : IRn → IRm linear e C ⊂ IRn convexo. Mostre que T (C) é convexo.
3.8. Seja f : IR2 → IR dada por f (x) = x21 − x1 x2 + 2x22 − 2x1 + 32 x2 + ex1 +x2 . Mostre
que f é convexa.
3.10. Refazer os Exercı́cios 3.8 da Seção 3.2 usando o Teorema 3.10 e também usando o
Teorema 3.12.
Capı́tulo 4
Algoritmos
35
Algoritmos 36
Definição 4.1 Considere uma função f : IRn → IR, um ponto x̄ ∈ IRn e uma direção
d ∈ IRn . Dizemos que d é uma direção de descida para f , a partir de x̄, quando existe
δ > 0 tal que f (x̄ + td) < f (x̄), para todo t ∈ (0, δ).
Apresentamos abaixo uma condição suficiente para uma direção ser de descida.
Teorema 4.2 Se ∇f (x̄)T d < 0, então d é uma direção de descida para f , a partir de x̄.
para todo t ∈ (−δ, δ), t 6= 0. Portanto, f (x̄ + td) < f (x̄), para todo t ∈ (0, δ), o que
completa a demonstração.
Quando n = 2 ou n = 3, podemos interpretar geometricamente o Teorema 4.2,
dizendo que as direções que formam um ângulo obtuso com ∇f (x̄) são de descida. Veja
a Figura 4.1.
−
∇ f(x)
−
x
( )
1 1
Exemplo 4.3 Sejam f : IR2 → IR dada por f (x) = (x21 − x22 ) e x̄ = . Se
2 0
( )
d1
d= é tal que d1 ≤ 0, então d é uma direção de descida para f , a partir de x̄.
d2
Resolução. Temos ∇f (x̄)T d = d1 . Caso d1 < 0, podemos aplicar o Teorema 4.2 para
concluir o que se pede. Entretanto,
( ) se d1 = 0, não podemos usar o teorema, mas basta
1 (td2 )2
notar que f (x̄ + td) = f = f (x̄) − . A Figura 4.2 ilustra este caso.
td2 2
Algoritmos 37
( )
0
Exemplo 4.4 Considere a mesma função do Exemplo 4.3 e x̄ = . O que podemos
−1
( )
1
dizer sobre d = ?
0
∇f ∇f
Dado: x0 ∈ IRn
k=0
repita enquanto ∇f (xk ) 6= 0
Calcule dk tal que ∇f (xk )T dk < 0
Escolha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faça xk+1 = xk + tk dk
k =k+1
4 4
3 3
2 2
1 1
0 0
−1 −1
−2 −1 0 1 2 −2 −1 0 1 2
podem ser obtidas pelo algoritmo, xk → 1 e (y k ) tem dois pontos de acumulação, 1 e −1.
Entretanto, nenhum desses pontos é estacionário. Veja a Figura 4.3.
Deste modo, se queremos garantir convergência, a escolha da direção dk e do
tamanho do passo tk , no Algoritmo 4.5, não pode ser arbitrária. Discutiremos na próxima
seção como obter tk , tendo dada uma direção. A determinação de uma direção de busca
será tratada no Capı́tulo 5.
Este problema é, em geral, difı́cil de se resolver. Entretanto, para certas funções
especiais, existem algoritmos para resolvê-lo. Veremos adiante tais funções, bem como
Algoritmos 39
um algoritmo. Antes porém vamos fazer um exemplo que pode ser resolvido de forma
direta.
( )
1 1
Exemplo 4.6 Considere f : IR2 → IR dada por f (x) = (x1 − 2)2 + (x2 − 1)2 , x̄ =
2 0
( )
3
ed= . Faça a busca exata a partir de x̄, na direção d.
1
2.5
1.5
0.5
−0.5
−1
−1.5
−1 0 1 2 3 4 5
queira. Este algoritmo será então aplicado para a função ϕ : [0, ∞) → IR por
Definição 4.7 Uma função contı́nua ϕ : [0, ∞) → IR é dita unimodal quando admite
um conjunto de minimizadores [t1 , t2 ], é estritamente decrescente em [0, t1 ] e estritamente
crescente em [t2 , ∞).
a u v b
(ii) Se ϕ(u) < ϕ(v) então o trecho [v, b] não pode conter um minimizador e pode ser
descartado.
Vamos discutir agora como particionar o intervalo [a, b]. A obtenção deste inter-
valo, que deve conter um minimizador de ϕ, será tratada adiante.
Uma estratégia que parece natural é dividir o intervalo em três partes iguais, ou
seja, definir
1 2
u = a + (b − a) e v = a + (b − a).
3 3
Assim, descartamos 31 do intervalo corrente a cada etapa. Entretanto, esta forma de
particionar o intevalo tem uma desvantagem. Precisamos fazer duas novas avaliações de
função por etapa, pois o ponto que sobrou, u ou v, não pode ser aproveitado. Veja a
Figura 4.7.
a u v b
a+ u+ v+ b+
Uma estratégia que veremos ser mais inteligente consiste em escolher os pontos
u e v que dividem o segmento [a, b] na razão áurea, de acordo com a seguinte definição.
Definição 4.8 Um ponto c divide o segmento [a, b] na razão áurea quando a razão entre o
maior segmento e o segmento todo é igual à razão entre√o menor e o maior dos segmentos.
5−1
Tal razão é conhecida como o número de ouro e vale ≈ 0, 618.
2
Desta forma, temos que u e v devem satisfazer
u = a + θ1 (b − a) e v = a + θ2 (b − a), (4.2)
obtemos
θ1 1 − θ2
1 − θ1 = e θ2 = . (4.3)
1 − θ1 θ2
√ √
3− 5 5−1
Portanto, θ1 = ≈ 0, 382 e θ2 = ≈ 0, 618. Salientamos que θ1 + θ2 = 1 e
2 2
θ22 = θ1 . (4.4)
Uma das vantagens da divisão na razão áurea em relação à divisão em três partes
iguais é que descartamos mais de 38% do intervalo ao invés de 33, 33%. Outra vantagem
Algoritmos 42
v + = a + θ22 (b − a) = a + θ1 (b − a) = u,
completando a prova.
A Figura 4.8 ilustra esta propriedade.
a u v b
a+ u+ v+ b+
Exercı́cios 4.10
Apresentamos agora o algoritmo da seção áurea, que tem duas fases. Na primeira,
obtemos um intervalo [a, b] que contém um minimizador de ϕ. A idéia desta etapa é
considerar um intervalo inicial [0, 2ρ], com ρ > 0, e ampliá-lo, deslocando para a direita,
até que um crescimento de ϕ seja detectado.
Na segunda fase, o intervalo [a, b] é reduzido, por meio do descarte de subin-
tervalos, até que reste um intervalo de tamanho suficiente para que uma precisão ε seja
alcançada.
Algoritmos 43
A condição acima significa que queremos mais que uma simples redução em f .
Esta redução deve ser proporcional ao tamanho do passo. O próximo resultado garante
que isto pode ser de fato obtido.
Algoritmos 44
Teorema 4.12 Considere uma função diferenciável f : IRn → IR, um ponto x̄ ∈ IRn ,
uma direção de descida d ∈ IRn e η ∈ (0, 1). Então existe δ > 0 tal que
Isto significa que procuramos um passo cuja redução na função objetivo seja pelo menos
uma fração η da redução obtida no modelo linear. Veja uma ilustração na Figura 4.9.
Note também nesta figura a reta dada por
p(0)=f(x)
f(x+td)
t q
p(t)
Além disso, a relação f (x̄ + td) ≤ f (x̄) + ηt∇f (x̄)T d pode ser escrita como
( ) ( ) ( )
1 + 3t 1 3
f ≤f + ηt(−1 − 2) ,
t 0 1
o que equivale a
10(1 − η)
t≤ .
11
1 15
Por exemplo, se η = , então qualquer t satisfazendo t ≤ ≈ 0, 6818 é aceitável.
4 22
Começando com t = 1, teremos o passo recusado. Então fazemos t = 0, 8 × 1 = 0, 8, que
Algoritmos 46
2.5
1.5
0.5
−0.5
−1
−1.5
−1 0 1 2 3 4 5
Dado: x0 ∈ IRn
k=0
repita enquanto ∇f (xk ) 6= 0
Defina dk = −H(xk )∇f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faça xk+1 = xk + tk dk
k =k+1
Definição 4.16 Um algoritmo é dito globalmente convergente quando para qualquer se-
quência (xk ) gerada pelo algoritmo e qualquer ponto de acumulação x̄ de (xk ), temos que
x̄ é estacionário.
Nos dois teoremas que seguem, vamos supor que a função f , a ser minimizada, é
de classe C 1 .
Teorema 4.17 O Algoritmo 4.15, com o tamanho do passo calculado pela busca exata, é
globalmente convergente.
Demonstração. Sejam (xk ) uma sequência gerada pelo algoritmo e x̄ um ponto de acu-
IN0
mulação de (xk ), digamos xk → x̄. Suponha por absurdo que x̄ não seja estacionário,
isto é, ∇f (x̄) 6= 0. Assim, d¯ = −H(x̄)∇f (x̄) é uma direção de descida, o que garante a
existência de t̄ > 0 tal que δ = f (x̄) − f (x̄ + t̄d)¯ > 0. Considere h : IRn → IR dada por
IN0
h(x) = f (x) − f (x − t̄H(x)∇f (x)). Como h é contı́nua, temos que h(xk ) → h(x̄) = δ.
Portanto,
δ
f (xk ) − f (xk + t̄dk ) = h(xk ) ≥ ,
2
0
para todo k ∈ IN , suficientemente grande. Deste modo, como tk foi obtido pela busca
exata, podemos concluir que
δ
f (xk+1 ) = f (xk + tk dk ) ≤ f (xk + t̄dk ) ≤ f (xk ) − ,
2
ou seja,
δ
f (xk ) − f (xk+1 ) ≥ , (4.6)
2
para todo k ∈ IN0 , suficientemente grande. Por outro lado, pela continuidade de f , temos
IN0
f (xk ) → f (x̄). Como a sequência (f (xk ))k∈IN é decrescente, o Teorema 1.12 garante que
f (xk ) → f (x̄), contradizendo (4.6).
Se utilizarmos a busca de armijo para calcular tk , também podemos garantir a
convergência.
Algoritmos 48
Teorema 4.18 O Algoritmo 4.15, com o tamanho do passo calculado pela condição de
Armijo (Algoritmo 4.13), é globalmente convergente.
Demonstração. Sejam (xk ) uma sequência gerada pelo algoritmo e x̄ um ponto de acu-
IN0
mulação de (xk ), digamos xk → x̄. Suponha por absurdo que x̄ não seja estacionário,
IN0
isto é, ∇f (x̄) 6= 0. Pela continuidade de f , temos f (xk ) → f (x̄). Como a sequência
(f (xk )) é monótona não crescente, podemos aplicar o Teorema 1.12 para concluir que
f (xk ) → f (x̄). Por outro lado, pela condição de Armijo, temos
IN0
∇f (xk )T H(xk )∇f (xk ) → ∇f (x̄)T H(x̄)∇f (x̄) 6= 0,
IN0
donde segue que tk → 0. Então, tk < 1, para todo k ∈ IN0 , suficientemente grande. Pelo
tk
Algoritmo 4.13, o passo 0,8 existiu e foi recusado. Assim,
( tk k ) tk
f (xk + tk dk ) ≤ f (xk ) + ηtk ∇f (xk )T dk e f xk + d > f (xk ) + η ∇f (xk )T dk .
0, 8 0, 8
Definição 4.20 Um algoritmo é dito globalmente convergente quando para qualquer se-
quência (xk ) gerada pelo algoritmo e qualquer ponto de acumulação x̄ de (xk ), temos que
x̄ é desejável.
Um algoritmo que gera apenas sequências que não tem pontos de acumulação é
um algoritmo globalmente convergente. De fato, não podemos encontrar uma sequência
gerada pelo algoritmo com um ponto de acumulação não desejável. Veja o Exemplo 4.21.
Dado: x0 ∈ IR
k=0
repita
xk+1 = xk − 1
k =k+1
gera sequências sem pontos de acumulação, pois |xm − xn | ≥ 1 para todos m, n ∈ IN.
Teorema 4.23 (Polak, 1968) Considere o problema (P ) e suponha que existe uma fun-
ção de mérito contı́nua ϕ : Ω → IR tal que para toda sequência (xk ) gerada pelo algoritmo
e todo ponto x̄ ∈ Ω não desejável, existe uma vizinhança V de x̄ e uma constante γ > 0
tais que se xk ∈ V , então ϕ(xk+1 ) ≤ ϕ(xk ) − γ. Então todo ponto de acumulação de (xk )
é desejável.
Algoritmos 50
Demonstração. Sejam (xk ) uma sequência gerada pelo algoritmo e x̄ um ponto de acu-
IN0
mulação de (xk ), digamos xk → x̄. Suponha por absurdo que x̄ não seja desejável. Então
existe uma vizinhança V de x̄ e uma constante γ > 0 tais que
ϕ(xk+1 ) ≤ ϕ(xk ) − γ,
IN0
se xk ∈ V . Como xk → x̄, podemos redefinir IN0 , se necessário, de modo que xk ∈ V , para
todo k ∈ IN0 . Assim,
ϕ(xk ) − ϕ(xk+1 ) ≥ γ, (4.7)
IN0
para todo k ∈ IN0 . Por outro lado, utilizando a continuidade de ϕ, temos ϕ(xk ) → ϕ(x̄).
Como a sequência (ϕ(xk ))k∈IN é monótona não crescente, podemos aplicar o Teorema 1.12
para concluir que ϕ(xk ) → ϕ(x̄), o que contradiz 4.7. Portanto, x̄ é desejável.
(b) Suponha que d é uma direção de descida a partir de x. Mostre que a busca exata
∇f (x)T d
fornece t̄ = − T .
d Ad
1
4.4. Considere f : IRn → IR dada por f (x) = xT Ax + bT x + c, onde A ∈ IRn×n é uma
2
matriz definida positiva, b ∈ IRn e c ∈ IR. Sabemos que a busca exata a partir de x,
∇f (x)T d
na direção de descida d, fornece t̄ = − T . Mostre que se t̄ satisfaz a condição de
d Ad
Armijo
f (x + t̄d) ≤ f (x) + η t̄∇f (x)T d,
1
então η ≤ .
2
Algoritmos 51
1
4.5. Considere f : IRn → IR dada por f (x) = xT Ax + bT x + c, onde A ∈ IRn×n é
2
uma matriz definida positiva, b ∈ IRn e c ∈ IR. Sejam x̄ o minimizador de f e d ∈ IRn
um autovetor de A associado ao autovalor λ. Faça uma busca exata a partir do ponto
x = x̄ + d, na direção d = −∇f (x). Qual é a interpretação geométrica deste exercı́cio?
4.6. Sejam f : IRn → IR, f ∈ C 2 e x̄ ∈ IRn tal que ∇f (x̄) = 0 e ∇2 f (x̄) não é semidefinida
positiva. Prove que existe uma direção de descida d em x̄.
Capı́tulo 5
Métodos de Otimização
Vamos agora discutir os métodos para resolver o Problema (2.1). Algumas re-
ferências para este assunto são [5, 9, 17].
∂f ∂f
(x) = ∇f (x)T d = −k∇f (x)k2 = −k∇f (x)kkvk ≤ ∇f (x)T v = (x).
∂d ∂v
5.1.1 Algoritmo
O algoritmo de Cauchy é exatamente o Algoritmo 4.15, com H(xk ) = I ∈ IRn×n ,
para todo k ∈ IN.
Dado: x0 ∈ IRn
k=0
repita enquanto ∇f (xk ) 6= 0
Defina dk = −∇f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faça xk+1 = xk + tk dk
k =k+1
52
Métodos para Otimização Irrestrita 53
A Figura 5.1 mostra 4 iterações do algoritmo com a busca exata aplicado para
minimizar uma função quadrática convexa. Esta figura sugere duas propriedades do
algoritmo. Uma delas, formalizada no Exercı́cio 5.2, é o fato de duas direções consecutivas
serem ortogonais. A outra propriedade se refere à convergência, que será discutida na
próxima seção.
Teorema 5.2 O Algoritmo 5.1, com o tamanho do passo tk calculado pela busca exata, é
globalmente convergente, segundo a Definição 4.16. O mesmo resultado vale se utilizarmos
a busca de Armijo para calcular tk .
Demonstração. Segue diretamente dos Teoremas 4.17 e 4.18, com H(x) = I ∈ IRn×n .
Salientamos que a convergência no caso da busca de Armijo é assegurada se
utilizarmos o Algoritmo 4.13 para calcular tk . Caso o tamanho do passo seja escolhido
apenas pela relação (4.5), ele pode ficar arbitrariamente pequeno e o algoritmo pode não
convergir. Veja o Exercı́cio 5.3 no final do capı́tulo.
1
f (x) = xT Ax + bT x + c, (5.1)
2
com A ∈ IRn×n definida positiva. Assim, f é convexa e tem um único minimizador x̄, que
é global e satisfaz
Ax̄ + b = ∇f (x̄) = 0. (5.2)
Métodos para Otimização Irrestrita 54
(dk )T dk
tk = . (5.3)
(dk )T Adk
d
De fato, basta fazer ∇f (xk + tdk )T dk = f (xk + tdk ) = 0.
dt
No que segue, para facilitar a notação, vamos supor que x̄ = 0 e f (x̄) = 0, isto é,
1
f (x) = xT Ax. (5.4)
2
dT d xT Ax
≤ T 2 .
dT Ad x Ax
dT d xT A2 x (dT d)2
= . (5.5)
dT Ad xT Ax (dT Ad)(dT A−1 d)
Como A > 0, existe G ∈ IRn×n tal que A = GGT . Fazendo u = GT d e v = G−1 d, temos
que uT v = dT d, uT u = dT Ad e v T v = dT A−1 d. Pela desigualdade de Cauchy-Schwarz,
podemos concluir de (5.5) que
dT d xT A2 x
≤ 1,
dT Ad xT Ax
completando a prova.
kxk+1 k2 ≤ γkxk k2 ,
kxk+1 k22 ≤ kxk k22 − 2tk (xk )T Axk + tk (xk )T Axk = kxk k22 − tk (xk )T Axk .
Caso xk = 0 não há nada a fazer. Suponha então que xk 6= 0. Usando novamente (5.3),
obtemos
kxk+1 k22 (dk )T dk (xk )T Axk
≤ 1 − .
kxk k22 (dk )T Adk (xk )T xk
Utilizando o Lema 1.36, segue que
kxk+1 k22 λ1
≤1− ,
kx k2
k 2
λn
completando a prova.
Este teorema tem uma interpretação geométrica interessante. As curvas de nı́vel
de f são elipsóides cuja excentricidade depende da diferença entre o maior e o menor
autovalor de A. Se λ1 = λn , então as curvas de nı́vel são esferas e a convergência ocorre
em um único passo. Entretanto, se λ1 λn , então os elipsóides ficam muito excêntricos
e a convergência se dá de forma lenta. Veja ilustração na Figura 5.2.
Teorema 5.5 Seja f : IRn → IR de classe C 2 . Suponha que x̄ ∈ IRn seja um minimizador
local de f , com ∇2 f (x̄) definida positiva, e que a sequência (xk ), gerada pelo algoritmo
de Cauchy, com busca exata, converge para x̄. Então a sequência (f (xk )) converge li-
( )2
λn − λ1
nearmente para f (x̄) com taxa não superior a , onde λ1 e λn são o menor e
λn + λ1
o maior autovalor de ∇2 f (x̄), respectivamente.
Métodos para Otimização Irrestrita 56
5.2.1 Motivação
Considere uma função f : IRn → IR de classe C 2 . Nosso objetivo consiste em
encontrar um minimizador de f . De acordo com as condições necessárias de otimalidade,
devemos resolver o sistema de n equações e n incógnitas dado por ∇f (x) = 0.
Generalizando, considere F : IRn → IRn de classe C 1 e o problema de resolver o
sistema (normalmente não linear)
F (x) = 0.
Como na maioria das vezes não conseguimos resolvê-lo de forma direta, os processos
iterativos constituem a forma mais eficiente de lidar com tais situações.
A idéia é aproximar F por seu polinômio de Taylor de primeira ordem. Dada
uma estimativa x̄, considere o sistema linear
onde JF representa a matriz jacobiana de F . Caso JF (x̄) seja inversı́vel, o sistema (5.6)
pode ser resolvido, fornecendo
( )−1
x+ = x̄ − JF (x̄) F (x̄).
Isto corresponde a uma iteração do método de Newton para resolução de equações (veja
a Figura 5.3).
F = ∇f , obtendo
( )−1
x+ = x̄ − ∇2 f (x̄) ∇f (x̄). (5.7)
5.2.2 Algoritmo
Com base na relação (5.7) podemos agora formalizar o método de Newton para
minimizar a função f . Basicamente, temos três variantes no algoritmo. Uma delas é
o método “puro”, onde não fazemos busca unidirecional e aceitamos o passo completo
(tk = 1, para todo k ∈ IN). As outras duas fazem uso de busca (exata ou Armijo).
Dado: x0 ∈ IRn
k=0
repita enquanto ∇f (xk ) 6= 0
( )−1
Defina dk = − ∇2 f (xk ) ∇f (xk )
Determine o tamanho do passo tk > 0
Faça xk+1 = xk + tk dk
k =k+1
1
p(x) = f (xk ) + ∇f (xk )T (x − xk ) + (x − xk )T ∇2 f (xk )(x − xk ).
2
obtendo exatamente o passo dk do Algoritmo 5.6. A Figura 5.4 ilustra esta abordagem.
O primeiro gráfico mostra, para n = 1, a função e o modelo, bem como os pontos xk e
xk+1 . O outro gráfico ilustra o passo para n = 2. Neste caso, mostramos as curvas de
nı́vel da função e do modelo, bem como os pontos xk e xk+1 .
Métodos para Otimização Irrestrita 58
Esta última abordagem sugere que se o método de Newton for aplicado em uma
função quadrática, então basta uma iteração para resolver o problema. De fato, considere
a quadrática dada em (5.1). Dado x0 ∈ IRn , o passo obtido é
( )−1
d0 = − ∇2 f (x0 ) ∇f (x0 ) = −A−1 (Ax0 + b) = −x0 − A−1 b.
x1 = x0 + d0 = −A−1 b = x̄.
5.2.3 Convergência
Como já observamos antes, a direção de Newton pode não ser de descida. Por-
tanto, não garantimos convergência global quando o problema a ser resolvido envolver
uma função arbitrária. No entanto, para uma classe de funções convexas, podemos tirar
conclusões positivas, pois podemos aplicar o que foi estabelecido no Capı́tulo 4.
Teorema 5.7 Suponha que ∇2 f (x) é definida positiva, para todo x ∈ IRn . Então o
Algoritmo 5.6, com o tamanho do passo tk calculado pela busca exata, é globalmente
convergente, segundo a Definição 4.16. O mesmo resultado vale se utilizarmos a busca de
Armijo para calcular tk .
( )−1
Demonstração. Segue diretamente dos Teoremas 4.17 e 4.18, com H(x) = ∇2 f (x) .
Para estabelecer propriedades de convergência local, vamos precisar dos seguintes
resultados.
Lema 5.8 Suponha que ∇2 f (x̄) > 0. Então existem constantes δ > 0 e M > 0 tais que
( 2 )
∇2 f (x) > 0 e
∇ f (x) −1
≤ M,
λ λ
dT ∇2 f (x)d = dT ∇2 f (x̄)d + dT [∇2 f (x) − ∇2 f (x̄)]d ≥ λ − = ,
2 2
provando que ∇2 f (x) é definida positiva para todo x ∈ B(x̄, δ). Para provar a outra
afirmação, considere x ∈ B(x̄, δ). Vamos denotar A = ∇2 f (x̄) e B = ∇2 f (x). Usando
novamente o Lema 1.36, agora aplicado em A2 , obtemos
kAdk2 = dT A2 d ≥ λ2 kdk2 ,
λ λ
kBdk = kAd + (B − A)dk ≥ kAdk − k(B − A)dk ≥ λkdk − kdk = kdk.
2 2
Lema 5.9 Sejam U ⊂ IRn aberto convexo e β = sup k∇2 f (x) − ∇2 f (y)k. Então
x,y∈U
para todos x, y ∈ U .
Demonstração. Fixado y ∈ U , considere h : IRn → IRn dada por h(x) = ∇f (x) − ∇2 f (y)x.
Assim,
kJh (x)k = k∇2 f (x) − ∇2 f (y)k ≤ β,
completando a demonstração.
Métodos para Otimização Irrestrita 60
Lema 5.10 Seja U ⊂ IRn aberto e convexo. Se ∇2 f é lipschitz com constante L, então
para todos x, y ∈ U .
k∇f (x) − ∇f (y) − ∇2 f (y)(x − y)k = kh(x) − h(y)k ≤ βkx − yk = Lkx − yk2 ,
completando a demonstração.
O próximo resultado estabelece a convergência quadrática do método de Newton
puro, isto é, com tk = 1, para todo k ∈ IN.
Teorema 5.11 Seja f : IRn → IR de classe C 2 . Suponha que x̄ ∈ IRn seja um minimiza-
dor local de f , com ∇2 f (x̄) definida positiva. Então existe δ > 0 tal que se x0 ∈ B(x̄, δ),
o Algoritmo 5.6, aplicado com tk = 1 para todo k ∈ IN, gera uma sequência (xk ) tal que:
1
Podemos diminuir δ, se necessário, de modo que sup k∇2 f (x) − ∇2 f (y)k < . Pelos
x,y∈U 2M
Lemas 5.8 e 5.9, concluı́mos que
1
kxk+1 − x̄k ≤ kxk − x̄k.
2
Isto prova que a sequência (xk ) está bem definida, que xk ∈ U , para todo k ∈ IN e que
xk → x̄, donde segue (i). Vejamos que a convergência é superlinear. Dado ε > 0, considere
ε
δ0 < δ tal que sup k∇2 f (x) − ∇2 f (y)k < , onde U0 = B(x̄, δ0 ). Tome k0 ∈ IN tal que
x,y∈U0 M
Métodos para Otimização Irrestrita 61
provando assim (ii). Finalmente, se ∇2 f é lipschitz, podemos usar os Lemas 5.8 e 5.10
em (5.9) para obter
kxk+1 − x̄k ≤ M Lkxk − x̄k2 ,
completando a demonstração.
1
qk (x) = f (xk ) + ∇f (xk )T (x − xk ) + (x − xk )T Bk (x − xk ),
2
onde Bk ∈ IRn×n pode ser a hessiana ∇2 f (xk ) ou qualquer outra matriz simétrica que
satisfaça kBk k ≤ β, para alguma constante β > 0, independente de k ∈ IN.
O modelo definido acima aproxima bem a função f numa vizinhança de xk .
Vamos portanto considerar ∆k > 0 e a região
{ }
x ∈ IRn | kx − xk k ≤ ∆k ,
problema
1
minimizar mk (d) = f (xk ) + ∇f (xk )T d + dT Bk d
2 (5.10)
sujeito a kdk ≤ ∆k ,
obtendo um passo dk . A outra etapa consiste em avaliar do passo. Esperamos que o ponto
xk + dk proporcione uma redução na função objetivo que seja no mı́nimo uma fração da
redução do modelo. Para formalizar este conceito definimos a redução real na função
objetivo e a redução predita pelo modelo como
Vamos também considerar seguinte razão, que será usada na avaliação do passo.
ared
ρk = . (5.11)
pred
O passo dk será aceito quando a razão ρk for maior que uma constante η > 0 dada.
Neste caso, definimos xk+1 = xk + dk e repetimos o processo. Caso contrário, recusamos
o passo dk , reduzimos o raio ∆k e resolvemos o subproblema (5.10) com o novo raio. A
Figura 5.5 ilustra um passo do método de região de confiança. Note que no gráfico da
direita o minimizador irrestrito do modelo está na região de confiança. Neste caso, se
Bk = ∇2 f (xk ), então o passo de região de confiança é exatamente o passo de Newton.
xk+1
xk+1
xk
xk
5.3.1 Algoritmo
Vamos agora formalizar a discussão anterior no seguinte algoritmo, que se baseia
no proposto em [18]. Também consideramos importante citar [3], uma referência moderna
sobre métodos de região de confiança,
Métodos para Otimização Irrestrita 63
Dados: x0 ∈ IRn , ∆
¯ > 0, ∆0 ∈ (0, ∆)
¯ e η ∈ [0, 1 ):
4
k=0
repita enquanto ∇f (xk ) 6= 0
Obtenha dk , solução “aproximada” de (5.10)
Calcule ρk usando (5.11)
se ρk > η
xk+1 = xk + dk
senão
xk+1 = xk
1
se ρk <
4
∆k
∆k+1 =
2
senão
3
se ρk > e kdk k = ∆k
4 { }
∆k+1 = min 2∆k , ∆ ¯
senão
∆k+1 = ∆k
k =k+1
Note que ∇mk (0) = ∇f (xk ). Assim, se entramos no repita do Algoritmo 5.12,
então ∇mk (0) 6= 0 e portanto a redução predita será positiva. Outra observação é que
aumentamos o raio quando a redução da função objetivo é grande e o passo dk está na
fronteira da região de confiança. Se o passo fica estritamente dentro da região, podemos
inferir que o raio atual ∆k não interfere no progresso do algoritmo e podemos deixar
inalterado o seu valor para a próxima iteração.
1
minimizar mk (−tgk ) = f (xk ) − tkgk k2 + t2 gkT Bk gk
2 (5.13)
sujeito a ktgk k ≤ ∆k .
A Figura 5.6 mostra o ponto de Cauchy em uma iteração k. Nesta figura, as elipses
x kc
xk
Esta condição será a base de uma das hipóteses na análise de convergência, isto é, vamos
supor que a solução aproximada do subproblema (5.10) seja pelo menos tão boa quanto
a solução de Cauchy.
Vamos agora fazer uma estimativa da redução do modelo no passo de Cauchy.
Demonstração. Primeiramente, vamos obter tk , solução do Problema 5.13, isto é, o mini-
mizador da função quadrática
1
ξ(t) = f (xk ) − tkgk k2 + t2 gkT Bk gk
2
∆k
no intervalo 0 ≤ t ≤ . Para isto considere dois casos: gkT Bk gk > 0 e gkT Bk gk ≤ 0.
kgk k
(i) Se gkT Bk gk > 0, então a função ξ é convexa (veja a Figura 5.7) e tem minimi-
zador irrestrito
kgk k2
t∗ = T . (5.15)
gk Bk gk
Métodos para Otimização Irrestrita 65
∆k
Dois subcasos podem ocorrer. O primeiro é quando t∗ ≤ . Neste caso temos tk = t∗
kgk k
e portanto
1 kgk k4
mk (0) − mk (dkc ) = .
2 gkT Bk gk
Usando a desigualdade de Cauchy-Schwarz, obtemos
1 kgk k2
mk (0) − mk (dkc ) ≥ . (5.16)
2 kBk k
∆k
No segundo subcaso temos t∗ > , o que implica que o minimizador de ξ está na
kgk k
fronteira. Assim, usando (5.15), obtemos
∆k kgk k2
tk = < T , (5.17)
kgk k gk Bk gk
implicando em
t2k gkT Bk gk < tk kgk k2 = kgk k∆k .
Portanto,
1 1
mk (dkc ) < f (xk ) − kgk k∆k + kgk k∆k = f (xk ) − kgk k∆k ,
2 2
donde segue que
1
mk (0) − mk (dkc ) > kgk k∆k . (5.18)
2
(ii) Agora o caso em que gkT Bk gk ≤ 0, fornecendo
1
mk (dkc ) = f (xk ) − tk kgk k2 + t2k gkT Bk gk ≤ f (xk ) − tk kgk k2 . (5.19)
2
Neste caso, a função ξ é decrescente para t ≥ 0 (veja a Figura 5.7) e assim o ponto de
∆k
Cauchy também está na fronteira da região de confiança, ou seja, tk = . Portanto,
kgk k
por (5.19),
1
mk (0) − mk (dkc ) ≥ kgk k∆k ≥ kgk k∆k . (5.20)
2
De (5.16), (5.18) e (5.20) segue que
{ }
1 kgk k
mk (0) − mk (dkc ) ≥ kgk k min ∆k , ,
2 kBk k
5.3.3 Convergência
Para estabelecer a convergência do método de região de confiança vamos supor
que o Algoritmo 5.12 gera uma sequência infinita (xk ) em IRn e que são satisfeitas as
Métodos para Otimização Irrestrita 66
ξ ξ ξ
t* ∆ t ∆ t* t ∆ t
g g g
seguintes hipóteses.
H5 As Hessianas Bk são uniformemente limitadas, isto é, que existe uma constante
β > 0 tal que kBk k ≤ β para todo k ∈ IN.
Lema 5.14 Suponha que sejam satisfeitas as Hipóteses H1-H5. Então existe uma cons-
tante c > 0 tal que
c∆2k
|ρk − 1| ≤ { }.
k∇f (x k
)k
k∇f (xk )k min ∆k ,
β
Métodos para Otimização Irrestrita 67
1 ( )T
ared − pred = (dk )T Bk dk − ∇f (xk + θk dk ) − ∇f (xk ) dk ,
2
Assim,
ared − pred c0 ∆2k
|ρk − 1| = ≤
{ },
pred k∇f (x k
)k
c1 k∇f (xk )k min ∆k ,
β
c0
provando o lema para c = .
c1
O próximo teorema já nos permite concluir algo sobre convergência, a saber, que
se a sequência (xk ) for limitada, então ela possui um ponto de acumulação estacionário.
Demonstração. Suponha por absurdo que isto seja falso. {Então }existe ε > 0 tal que
k∇f (xk )k ≥ ε, para todo k ∈ IN. Considere ∆ ˜ = min ε , ε , onde β e c são as
β 2c
constantes do Lema 5.14. Se ∆k ≤ ∆, então
˜
ε ∇f (xk ) ε
∆k ≤ ≤ e ∆k ≤ .
β β 2c
Em vista de (5.21), temos que existe uma constante δ̃ > 0 tal que
para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) − f (xk+1 ) → 0. Portanto, de (5.22), podemos
1
concluir que o conjunto K é finito. Assim, ρk < , para todo k ∈ IN suficientemente
4
grande e então ∆k será reduzido à metade em cada iteração. Isto implica ∆k → 0, o que
contradiz (5.21). Deste modo, a afirmação no teorema é verdadeira.
Finalmente, podemos provar a convergência global do método de região de con-
fiança.
∇f (xk ) → 0.
ε
seja infinito. Dado k ∈ K, considere o primeiro ı́ndice lk > k tal que k∇f (xlk )k ≤ . A
2
existência de lk é assegurada pelo Teorema 5.15. Como ∇f é Lipschitz, temos
ε
≤ k∇f (xk ) − ∇f (xlk )k ≤ Lkxk − xlk k,
2
ε ∑ ∑
≤ kxk − xlk k ≤ kxj − xj+1 k ≤ γ∆j , (5.23)
2L j∈S j∈S
k k
Métodos para Otimização Irrestrita 69
{ }
ηc1 ε2 ηc1 ε2
Definindo δ̃ = min , e usando (5.23), obtemos
2γL β
para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) − f (xk+1 ) → 0, contradizendo (5.24). Deste modo,
a afirmação no teorema é verdadeira.
Uma consequência imediata do Teorema 5.16 é que todo ponto de acumulação de
IN0
uma sequência gerada pelo Algoritmo 5.12 é estacionário. De fato, se xk → x̄, então a
IN0
continuidade de ∇f garante que ∇f (xk ) → ∇f (x̄). Por outro lado, pelo Teorema 5.16,
temos ∇f (xk ) → 0. Assim, ∇f (x̄) = 0.
Vamos reapresentar agora o Lema 5.14 e o Teorema 5.15, mas com uma hipótese
mais fraca que H1. Vamos substituir a condição de Lipschitz de ∇f pela continuidade
uniforme.
Lema 5.17 Suponha que f seja de classe C 1 e que sejam satisfeitas as Hipóteses H2-H5.
Então ( )
β { }
γ∆k γ∆k + sup k∇f (xk + tdk ) − ∇f (xk )k
2 t∈[0,1]
|ρk − 1| ≤ { } ,
k∇f (x k
)k
c1 k∇f (xk )k min ∆k ,
β
onde c1 , γ e β são as constantes das Hipóteses H2, H3 e H5, respectivamente.
1 ( )T
ared − pred = (dk )T Bk dk − ∇f (xk + θk dk ) − ∇f (xk ) dk ,
2
Métodos para Otimização Irrestrita 70
ared − pred
Notando que |ρk − 1| = e usando H2, completamos a prova.
pred
Teorema 5.18 Suponha que f seja de classe C 1 , com ∇f uniformemente contı́nua e que
sejam satisfeitas as Hipóteses H2-H5. Então
Demonstração. Suponha por absurdo que isto seja falso. Então existe ε > 0 tal que
k∇f (xk )k ≥ ε, para todo k ∈ IN. Pela continuidade uniforme de ∇f , existe δ > 0 tal que
se kdk k ≤ δ, então
{ } c1 ε
sup k∇f (xk + tdk ) − ∇f (xk )k ≤ . (5.25)
t∈[0,1] 4γ
{ }
˜ = min ε δ c 1 ε
Considere ∆ , , , onde c1 , γ e β são as constantes das Hipóteses H2, H3
β γ 2βγ 2
e H5, respectivamente. Se ∆k ≤ ∆, ˜ então
ε ∇f (xk ) γ 2 β∆k 1
∆k ≤ ≤ , γ∆k ≤ δ e ≤ . (5.26)
β β 2c1 ε 4
1 1
Assim, ρk ≥ > e pelo Algoritmo 5.12 temos ∆k+1 ≥ ∆k . Isto significa que o raio é
2 4
˜
˜ caso em que ∆k+1 = ∆k > ∆ . Podemos então concluir que
reduzido somente se ∆k > ∆,
2 2
{ }
∆˜
∆k ≥ min ∆0 , , (5.27)
2
Em vista de (5.27), temos que existe uma constante δ̃ > 0 tal que
para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) − f (xk+1 ) → 0. Portanto, de (5.28), podemos
1
concluir que o conjunto K é finito. Assim, ρk < , para todo k ∈ IN suficientemente
4
grande e então ∆k será reduzido à metade em cada iteração. Isto implica ∆k → 0, o que
contradiz (5.27). Deste modo, a afirmação no teorema é verdadeira.
k
x ku x d xNk
x∆k
x ku xNk
xk xkd xk∆
xk
A Figura 5.9 mostra a trajetória do ponto dogleg, xkd , bem como da solução exata
do subproblema (5.10), xk∆ , ambas como função do raio da região de confiança.
Métodos para Otimização Irrestrita 72
Para verificar que este método está bem definido, vamos mostrar agora que o
modelo decresce ao longo da poligonal e que a distância ao ponto corrente cresce quando
caminhamos na poligonal, saindo de xk indo para xkN . Isto significa que esta poligonal
cruza a fronteira da bola no máximo uma vez, justamente no ponto dogleg. Se o raio
for suficientemente grande, a poligonal estará inteiramente contida na bola, e neste caso,
teremos xkd = xkN .
Lema 5.19 Seja B ∈ IRn×n uma matriz definida positiva. Dado d ∈ IRn , temos
Lema 5.20 Sejam B ∈ IRn×n uma matriz definida positiva e g ∈ IRn . Considere a
quadrática
1
m(d) = g T d + dT Bd
2
e os minimizadores de m,
gT g
a=− g e b = −B −1 g,
g T Bg
e
(g T g)2 (g T g)2 − (g T Bg)(g T B −1 g)
g T (b − a) = −g T B −1 g + = .
g T Bg g T Bg
Portanto, de (5.29) e do Lema 5.19, podemos concluir que ξ 0 (t) ≤ 0, para t ≤ 1. Isto
implica, em particular, que m é não crescente no trecho [a, b].
(ii) No trecho [0, a] a afirmação é imediata. Vamos então provar que ζ(t) = ka + t(b − a)k22
é crescente. Note primeiro que
( )
ζ 0 (t) = 2 aT (b − a) + tkb − ak22 .
o que implica que ζ 0 (t) ≥ 0, para todo t ≥ 0. Portanto, ζ é não decrescente. Finalmente,
usando Lema 3.3, podemos concluir que ζ é estritamente crescente.
5.2. Mostre que no método de Cauchy com busca exata temos dk+1 ⊥ dk .
5.3. Mostre que o método de Cauchy com busca de Armijo pode não convergir se o
tamanho do passo for obtido apenas satisfazendo a relação (4.5), ao invés da utilização
do Algoritmo 4.13.
5.4. Desenhe as curvas de nı́vel da função f (x) = x21 + 4x22 − 4x1 − 8x2 . Encontre o
ponto x̄ que minimiza f . Prove que o método do gradiente, aplicado a partir de x0 = 0
não pode convergir para x̄ em um número finito de passos, se usarmos busca linear exata.
Há algum ponto x0 para o qual o método converge em um número finito de passos?
Métodos para Otimização Irrestrita 74
5.5. Seja f uma função quadrática com Hessiana definida positiva. Prove que se ao
aplicarmos o método do gradiente a partir de um certo x0 , com ∇f (x0 ) 6= 0, encontramos
a solução em uma iteração, então v = x1 − x0 é um autovetor da Hessiana. Reveja o
Exercı́cio 4.5.
5.6. Seja f : IRn → R, f ∈ C 1 . Defina xk+1 = xk − tk ∇f (xk ), onde tk ≥ t̄ > 0 para todo
k ∈ IN. Suponha que xk → x̄. Prove que ∇f (x̄) = 0.
1
5.7. Considere h : IRn → IR dada por h(x) = xT Ax + bT x + c, onde A ∈ IRn×n é uma
2
matriz definida positiva, b ∈ IRn e c ∈ IR. Sejam x̄ o minimizador de h,
1
f (x) = h(x + x̄) − h(x̄) = xT Ax
2
e (xk ) a sequência gerada pelo método de Cauchy com busca exata aplicado em f . Defina
y k = xk + x̄. Mostre que o método de Cauchy com busca exata aplicado em h, a partir
de y 0 , gera justamente a sequência (y k ).
5.8. Considere um número real a > 0. Mostre que o método de Newton para resolver a
equação x2 − a = 0 é dado por
1( k a)
xk+1 = x + k .
2 x
5.10. A Figura 5.10 ilustra uma situação na qual o método de Newton (para equações)
pode falhar. A função é dada por f (x) = x4 − x2 . Determine quais devem ser os pontos
iniciais para que isto aconteça.
1. Contador de iterações;
2. Função objetivo;
3. Norma do gradiente;
5.2. f : IR2 → IR dada por f (x) = (x1 − x22 )(x1 − 21 x22 ). Note que x̄ = 0 é o único ponto
estacionário de f e não é minimizador.
5.3. f : IR2 → IR dada por f (x) = 2x31 − 3x21 − 6x1 x2 (x1 − x2 − 1).
minimizar f (x)
sujeito a g(x) ≤ 0 (6.1)
h(x) = 0,
onde f : IRn → IR, g : IRn → IRp e h : IRn → IRm são funções continuamente diferenciáveis.
O conjunto
Ω = {x ∈ IRn | g(x) ≤ 0, h(x) = 0} (6.2)
Na Figura 6.1 ilustramos este problema. Note que −∇f (x̄) é uma combinação positiva
de ∇g1 (x̄) e ∇g2 (x̄). Isto informalmente significa que para diminuir o valor de f temos
que sair do conjunto viável. O que faremos neste capı́tulo é formalizar esta afirmação.
76
Otimização com Restrições 77
Ω ∇ g1
x −∇ f
∇ g2
6.1 Cones
Vamos discutir nesta seção alguns aspectos gerais da teoria de cones que serão
fundamentais para estabelecer as condições de KKT. Dentre outras coisas destacamos o
clássico Lema de Farkas, que será tratado em uma versão geométrica.
Definição 6.2 Um subconjunto não vazio C ⊂ IRn é um cone quando, para todo t ≥ 0 e
d ∈ C tem-se td ∈ C.
C td C td
d d
0 0
Exercı́cios 6.3
( ) ( ) ( )
1 2 1
1. Sejam v1 = , v2 = e v3 = . Mostre que
1 1 −1
S = {x1 v1 + x2 v2 + x3 v3 | xj ≥ 0, j = 1, 2, 3}
Um exemplo de cone que será útil mais adiante é o de cone polar, que em IR2 ou
IR3 pode ser caracterizado pelos vetores que formam um ângulo maior ou igual a 90o com
os elementos de um conjunto dado.
S
S
0 0
P(S) P(S)
Assim (1 − t)u + tv ∈ P (S), provando que P (S) é convexo. Para mostrar que P (S)
é fechado, considere uma sequência (dk ) ⊂ P (S) com dk → d. Dado x ∈ S, temos
(dk )T x ≤ 0, logo dT x ≤ 0. Portanto, d ∈ P (S), completando a demonstração.
Exercı́cios 6.6
Como a própria Figura 6.3 sugere, aplicar o polar duas vezes nem sempre fornece
o conjunto original. No entanto, temos o seguinte resultado.
P(P(S))
S
0
P(S)
Basicamente, temos três motivos que impedem a igualdade entre o duplo polar e
o conjunto: o fato de não ser cone, não ser convexo ou não ser fechado. Estas situações
aparecem na Figura 6.5. O clássico Lema de Farkas, apresentado em seguida, garante a
igualdade.
S S
S
0 0 0
P(S) P(S) P(S)
Lema 6.8 (Farkas) Considere C ⊂ IRn um cone convexo fechado não vazio. Então
P (P (C)) = C.
C = {By | y ∈ IRm , y ≥ 0} .
v1T d
implicando em y k → y, onde y = ≥ 0, pois y k ≥ 0. Portanto, dk = y k v1 → yv1 e
kv1 k2
assim, d = yv1 ∈ C.
(ii) Suponha que o lema seja válido para m − 1. Vamos provar que vale para m.
Considere primeiro o caso em que posto(B) = m. Seja (dk ) ⊂ C, tal que dk → d. Então,
dk = By k , com y k ≥ 0. Deste modo,
B T By k = B T dk → B T d,
Otimização com Restrições 81
Bγ = 0 (6.6)
onde γ é dado por (6.6). Assim, para todo i tal que γi > 0, temos yi + t̄γi ≥ 0. Além disso,
yj
como t̄ ≤ 0, também vale yi + t̄γi ≥ 0 para cada i tal que γi ≤ 0. Seja j tal que t̄ = − .
γj
Definindo ȳ = y + t̄γ, temos que ȳ ≥ 0 e ȳj = 0. Portanto, usando (6.6), obtemos
d = By = B(y + t̄γ) = B ȳ ∈ Cj ,
∪
m
Como a inclusão Cj ⊂ C é imediata, completamos a prova.
j
vm v2
v1
0
O Lema 6.9 pode ser usado para estabelecer uma relação entre a versão geométrica
do Lema de Farkas (Lema 6.8) e sua forma algébrica, muito encontrada na literatura.
Ax ≤ 0 e cT x > 0 (6.7)
AT y = c e y ≥ 0. (6.8)
Pelos Lemas 6.8 e 6.9 temos C = P (P (C)). Logo, c 6∈ P (P (C)), o que significa que existe
x ∈ P (C) tal que cT x > 0. Além disso,
(Ax)T y = xT AT y ≤ 0,
Ax ≤ 0,
Mesmo sendo uma versão algébrica, o Lema 6.10 pode ser interpretado geometri-
camente, conforme vemos na Figura 6.7. Os vetores v1 , v2 , . . . , vm ∈ IRn são as linhas de
A. No lado esquerdo temos o caso em que o sistema (6.7) tem solução. No lado direito
(6.8) tem solução.
C C
v v v v
m 2 m 2
c
v1 v1
P(C) P(C)
c
x
Vamos denotar por A(x̄) o conjunto de ı́ndices das restrições de desigualdade ativas em
um ponto viável x̄, isto é,
A(x̄) = {i | gi (x̄) = 0}.
Note que o conjunto D(x̄) pode ser visto como um conjunto viável, onde lineari-
zamos as restrições de desigualdade ativas e todas as de igualdade. Isto se deve ao fato
de que
∇gi (x̄)T d = gi (x̄) + ∇gi (x̄)T d ≈ gi (x̄ + d)
para i ∈ A(x̄) e
∇hj (x̄)T d = hj (x̄) + ∇hj (x̄)T d ≈ hj (x̄ + d).
Na Figura 6.8 temos algumas das situações que surgem quando consideramos o
cone D(x̄). Na primeira, temos desigualdades e os gradientes ativos são linearmente inde-
pendentes. Isto confere uma certa regularidade ao conjunto Ω, que é “bem” aproximado
por D(x̄) em uma vizinhança de x̄. Na segunda, temos uma igualdade e também podemos
dizer que D(x̄) é uma boa aproximação para Ω. No entanto, a última situação mostra
um caso onde o cone é uma reta, mas o conjunto viável é uma região do plano. Note que,
neste caso, os gradientes ativos são linearmente dependentes.
Otimização com Restrições 84
∇g D(x)
2 ∇ g2
Ω Ω
x Ω x D(x)
x
∇ g1 ∇g
∇h D(x) 1
Exercı́cios 6.13
2. Sejam g1 , g2 : IR2 → IR dadas por g1 (x) = x21 − 2x1 − x2 e g2 (x) = x21 − 2x1 + x2 e
x̄ = 0. Represente geometricamente o conjunto viável e o cone D(x̄).
Este conjunto tem duas propriedades muito importantes, que provaremos a seguir.
Uma delas é que seu polar é justamente o cone D(x̄). A outra propriedade diz que G(x̄)
é um cone convexo fechado. Veja a Figura 6.9.
∇g D(x)
2
Ω
G(x) x
∇ g1
∑ ∑
m
T
d s= µi d ∇gi (x̄) +
T
λj dT ∇hj (x̄).
i∈A(x̄) j=1
Como d ∈ D(x̄), temos dT ∇gi (x̄) ≤ 0 para todo i ∈ A(x̄) e dT ∇hj (x̄) = 0 para todo
j = 1, . . . , m. Assim, dT s ≤ 0, pois µi ≥ 0. Portanto, d ∈ P (G(x̄)). Para provar
a inclusão contrária, tome d ∈ P (G(x̄)). Então, dT s ≤ 0, para todo s ∈ G(x̄). Em
particular, como ∇gi (x̄) ∈ G(x̄), para i ∈ A(x̄), temos
Além disso, para todo j = 1, . . . , m, ∇hj (x̄) e −∇hj (x̄) são elementos de G(x̄). Logo,
( )
dT ∇hj (x̄) ≤ 0 e dT − ∇hj (x̄) ≤ 0,
implicando em dT ∇hj (x̄) = 0. Disto e de (6.10), decorre que d ∈ D(x̄), o que completa a
demonstração.
Demonstração. Note que um elemento qualquer de G(x̄) pode ser escrito como
∑ ∑ ∑
µi ∇gi (x̄) + λj ∇hj (x̄) + (−λj )(−∇hj (x̄))
i∈A(x̄) λj ≥0 λj <0
G(x̄) = {By | y ≥ 0} ,
onde B é a matriz cujas colunas são ∇gi (x̄), ∇hj (x̄) e −∇hj (x̄), i ∈ A(x̄) e j = 1, . . . , m.
Pelo Lema 6.9, temos o resultado desejado.
Tendo em vista os Lemas 6.8 e 6.15, podemos reescrever o Lema 6.14 como
Definição 6.16 Uma direção d ∈ IRn é dita tangente a Ω ⊂ IRn a partir de x̄ ∈ Ω quando
é nula ou existe uma sequência de pontos viáveis (xk ) ⊂ Ω tal que xk → x̄ e
xk − x̄ d
→ .
kx − x̄k
k kdk
Na Figura 6.10 ilustramos este conceito. Na esquerda o conjunto viável é uma curva
definida por uma restrição de igualdade, na qual representamos uma direção tangente
d e a convergência indicada na definição. Na outra ilustração o conjunto viável é uma
região determinada por duas restrições de desigualdade. Nesta figura aparecem algumas
direções tangentes. Note que uma direção que “penetra” no conjunto viável também
satisfaz a Definição 6.16.
x1
Ω
x2
Ω
x3 x
x4
x5 d
x
Segue diretamente da definição que se d é tangente, o mesmo vale para td, qual-
quer que seja t ≥ 0. Assim, o conjunto formado pelos vetores tangentes a Ω em x̄ é um
cone, chamado de cone tangente a Ω no ponto x̄ e denotado por T (x̄).
Exemplo 6.17 Considere as funções g1 , g2 : IR2 → IR dadas por g1 (x) = x21 − 2x1 − x2
e g2 (x) = x21 − 2x1 + x2 . Determine o cone tangente T (x̄), associado ao conjunto viável
{ }
Ω = x ∈ IR2 | g(x) ≤ 0 em torno do ponto x̄ = 0.
( ) ( )
s k d1
Resolução. Sejam xk = uma sequência de pontos de Ω e d = ∈ IR2 tais que
tk d2
xk − x̄ d
xk → x̄ e → . (6.12)
kx − x̄k
k kdk
Vamos provar que −2d1 ≤ d2 ≤ 2d1 . Como xk ∈ Ω, temos s2k − 2sk ≤ tk ≤ 2sk − s2k .
Portanto,
s2 − 2sk t 2s − s2k
√k ≤ √ k ≤ √k . (6.13)
s2k + t2k s2k + t2k s2k + t2k
De (6.12), podemos concluir que
sk d1 t d2
sk → 0 , √ → e √ k → .
s2k 2
+ tk kdk 2 2
sk + tk kdk
Otimização com Restrições 87
−2d1 d2 2d1
Assim, passando o limite na relação (6.13), obtemos ≤ ≤ , donde segue
kdk kdk kdk
que
{ }
T (x̄) ⊂ d ∈ IR2 | −2d1 ≤ d2 ≤ 2d1 .
( )
1
Para provar a inclusão contrária, tome primeiro d = . Considere
2
( )
1 sk
sk = , tk = 2sk − s2k e xk = .
k tk
sk 1 1 t 2
Assim, xk → x̄ , √ 2 = √ → √ e √ k → √ . Portanto,
sk + t2k 1 + (2 − s(
k)
2
) 5 s2k + t2k 5
x − x̄
k
d 1
→ . Considere agora d = , com γ ∈ [0, 2). Para todo k ∈ IN,
kx − x̄k
k kdk γ
( )
1 1 1
suficientemente grande, temos γ < 2 − , implicando em y k = ∈ Ω. Além disso,
k k γ
y k − x̄ d
y k → x̄ e → .
ky − x̄k
k kdk
Como T (x̄) é um cone, podemos concluir que todo vetor d ∈ IR2 tal que 0 ≤ d2 ≤ 2d1 é
tangente. O caso −2d1 ≤ d2 ≤ 0 é análogo. Com isto, obtemos
{ }
T (x̄) = d ∈ IR2 | −2d1 ≤ d2 ≤ 2d1 .
T(x)
Ω
x
No Exemplo 6.17 temos a igualdade entre os cones T (x̄) e D(x̄), mas isto não é
regra geral. Aliás, o cone tangente pode não ser convexo. No entanto, pode-se mostrar
que é fechado (veja o Exercı́cio 6.9).
Otimização com Restrições 88
e
T (x̄) = {(d1 , d2 ) | d1 ≥ 0, d2 ≥ 0, d1 d2 = 0}.
Na Figura 6.12 estão representados estes cones. Note que T (x̄) 6= D(x̄) e T (x̄) não é
convexo.
D(x)
∇ g1 x
Ω=T(x)
G(x)
∇ g2
Demonstração. Considere d ∈ T (x̄), d 6= 0. Então existe uma sequência (xk ) ⊂ Ω tal que
xk − x̄ d
xk → x̄ e k → . Pela diferenciabilidade de g e h segue que
kx − x̄k kdk
e
h(xk ) = h(x̄) + ∇h(x̄)T (xk − x̄) + o(kxk − x̄k).
d d
Passando o limite, obtemos ∇gi (x̄)T ≤ 0 e ∇hj (x̄)T = 0. Assim, d ∈ D(x̄),
kdk kdk
completando a prova.
Demonstração. Seja d ∈ T (x̄), d 6= 0. Então existe uma sequência (xk ) ⊂ Ω tal que
xk − x̄ d
xk → x̄ e k → . Por outro lado, temos
kx − x̄k kdk
para todo k suficientemente grande. Dividindo por kxk − x̄k e passando o limite obtemos
∇f (x̄)T d ≥ 0, completando a prova.
Na Figura 6.13 ilustramos uma situação que satisfaz as condições do Lema 6.20
e outra onde isto não se verifica.
Ω
Ω
x ∇f
x
∇f
O Lema 6.20 tem um interesse teórico, pois será usado para provar o Teorema de
KKT. No entanto, este lema é pouco prático, no sentido de que não podemos usá-lo para
calcular os possı́veis minimizadores. O teorema seguinte nos dá esta possibilidade.
∑
p
∑
m
−∇f (x̄) = µ̄i ∇gi (x̄) + λ̄j ∇hj (x̄),
i=1 j=1
µ̄i ≥ 0, i = 1, . . . , p,
µ̄i gi (x̄) = 0, i = 1, . . . , p.
Otimização com Restrições 90
Demonstração. Pelo Lema 6.20, temos −∇f (x̄)T d ≤ 0, para todo d ∈ T (x̄). Assim,
usando a hipótese e a relação (6.11), obtemos
∑ ∑
m
−∇f (x̄) = µi ∇gi (x̄) + λj ∇hj (x̄).
i∈A(x̄) j=1
{
µi , para i ∈ A(x̄)
Definindo µ̄i = e λ̄ = λ, completamos a prova.
0, caso contrário
Exemplo 6.22 Vamos refazer o Exemplo 6.1 usando KKT. O problema é dado por
x21 ≤ x2 ≤ 2 − x1 ,
6.2. Para cada um dos conjuntos abaixo, diga se é um cone e represente geometricamente.
{ }
(a) S = d ∈ IR2 | d21 − d2 ≤ 0 .
{ }
(b) S = d ∈ IR2 | d21 − d2 ≥ 0 .
6.3. Suponha que S1 e S2 sejam cones do IRn . Mostre que S = S1 ∪ S2 é um cone e que
P (S) = P (S1 ) ∩ P (S2 ).
( ) ( ) ( )
1 3 4
6.4. Sejam u = , v = e x̄ = . Represente geometricamente o cone
2 1 3
S = {µ1 u + µ2 v | µj ≥ 0, j = 1, 2} e a sua translação x̄ + S = {x̄ + d | d ∈ S}.
6.6. Sejam B ∈ IRn×m e C = {By | y ∈ IRm , y ≥ 0}. Usando o Lema 6.10, mostre que
P (P (C)) = C.
6.8. Sejam B ∈ IRn×m e C = {By | y ∈ IRm , y ≥ 0}. Usando o Exercı́cio 6.7, mostre
que C é um conjunto fechado.
Usando idéias similares às do Exemplo 6.17, determine o cone T (x̄), associado ao conjunto
{ }
viável Ω = x ∈ IR2 | g(x) ≤ 0 em torno do ponto x̄ = 0. Obtenha também o cone D(x̄).
6.16. Mostre que o problema abaixo tem um minimizador global e encontre-o usando
KKT.
min x1 + x2 + · · · + xn
s. a x1 x2 · · · xn = 1 .
x≥0
√ x1 + x2 + · · · + xn
Conclua que n
x1 x2 · · · xn ≤ .
n
6.17. Mostre que o problema abaixo tem 4 minimizadores globais e encontre-os usando
KKT.
min x21 + x22 + x23
.
s. a x1 x2 x3 = 1
6.18. Mostre que o problema abaixo pode ter 1 ou 2 minimizadores globais, dependendo
do valor de c > 0. Faça uma representação geométrica.
min xT x min xT Ax
e .
s. a xT Ax = 1 s. a xT x = 1
{ }
6.20. Princı́pio de Fermat na ótica. Sejam Ω = x ∈ IR2 | h(x) = 0 e a, b ∈ IR2
conforme a figura abaixo. Mostre que se x∗ minimiza a soma das distâncias aos pontos a
e b, dentre os pontos de Ω, então o vetor ∇h(x∗ ) forma ângulos iguais com a − x∗ e b − x∗ .
(Sugestão: mostre primeiro que se u, v ∈ IR2 são vetores de mesma norma e w = u + v,
então w forma ângulos iguais com u e v.)
x*
∇h
a
Capı́tulo 7
Apresentamos neste capı́tulo dicas ou soluções para alguns dos exercı́cios propos-
tos no texto.
Capı́tulo 1
( )
A B
1.9. (=⇒) Seja Q = , onde A ∈ IRk×k . Se x ∈ IRk é não nulo, então
BT C
( )( )
( ) A B x
xT Ax = xT 0 = y T Qy > 0.
BT C 0
Portanto, A é definida positiva, o que implica que seus autovalores são positivos e assim
det(A) > 0.
(⇐=) Vamos provar por indução em n. Para n = 1 ( não há o)que provar. Suponha que
A b
a propriedade é válida para n − 1 e considere Q = T
, onde A ∈ IR(n−1)×(n−1) ,
b c
b ∈ IRn−1
e c ∈ IR. Assim, os determinantes principais de A são positivos. Pela hipótese
de indução, A é definida positiva. Dado y ∈ IRn , caso yn = 0, temos
( )( )
( ) A b x
y T Qy = xT 0 = xT Ax > 0.
bT c 0
( )
x
Caso yn 6= 0, podemos escrever y = yn . Deste modo temos
1
( )( )
( ) A b x ( )
y T Qy = yn2 xT 1 = yn2 xT Ax + 2bT x + c .
bT c 1
Para concluir a demonstração basta mostrar que f (x) = xT Ax + 2bT x + c > 0, o que será
feito provando que f (x) ≥ f (x∗ ) > 0, onde x∗ = −A−1 b. Note que A é de fato inversı́vel
94
Dicas e soluções dos exercı́cios 95
Além disso,
f (x∗ ) = (x∗ )T Ax∗ + 2bT x∗ + c
= (x∗ )T (−b) + 2(x∗ )T b + c
= bT x∗ + c = c − bT A−1 b.
Finalmente, ( ) ( )( )
A b I 0 A b
Q= = T −1 T −1
.
bT c b A 1 0 c−b A b
Como (c − bT A−1 b) det(A) = det(Q) > 0 e det(A) > 0, temos f (x∗ ) = c − bT A−1 b > 0.
Capı́tulo 2
( )
2ax1 (x21 − x2 ) + b(x1 − 1)
2.3. Temos ∇f (x) = 2 . Logo, o único ponto estacionário
a(x2 − x21 )
( ) ( )
1 6ax 2
− 2ax 2 + b −2ax 1
de f é x̄ = . Além disso, ∇2 f (x) = 2 1
e portanto,
1 −2ax1 a
( )
4a + b −2a
∇2 f (x̄) = 2 > 0, o que significa que x̄ é minimizador local de f . A
−2a a
( )
última parte do exercı́cio decorre de det ∇2 f (x) = 8a2 (x21 − x2 ) + 4ab.
2.5. Suponha por absurdo que x̄ não seja um minimizador global de f . Então existe
x̂ ∈ IRn tal que f (x̂) < f (x̄). Considere A = {x ∈ IRn | f (x) ≥ f¯}. O conexo [x̄, x̂] tem
um ponto de A e um ponto de Ac . Pelo Teorema da Alfândega, existe y ∈ [x̄, x̂] ∩ ∂A.
Vejamos que f (y) = f¯. De fato, existem sequências (y k ) ⊂ A e (z k ) ⊂ Ac tais que y k → y
e z k → y. Portanto, f (y k ) → f (y) e f (z k ) → f (y). Como f (y k ) ≥ f¯ e f (z k ) < f¯, temos
f (y) = f¯. Além disso, y não é minimizador local, pois f (z k ) < f¯ = f (y).
Outra solução (sem usar o Teor. da Alfândega). Defina g : [0, 1] → IR por g(t) = f (x(t)),
onde x(t) = (1 − t)x̄ + tx̂. Seja t∗ = sup{t ∈ [0, 1] | g(t) ≥ f¯}. Temos g(t∗ ) ≥ f¯. Além
disso, g(1) < f¯, o que implica t∗ < 1. Então existe uma sequência (sk ) ∈ (t∗ , 1] com
sk → t∗ . Portanto g(sk ) < f¯ e, por continuidade, g(t∗ ) ≤ f¯. Concluı́mos assim que
x∗ = x(t∗ ) satisfaz f (x∗ ) = f¯, mas não é minimizador local, pois f (x(sk )) < f¯.
Dicas e soluções dos exercı́cios 96
Capı́tulo 3
3.1. Provaremos que se B(y, ε) ⊂ C, t ∈ (0, 1] e z = (1 − t)x + ty, então B(z, tε) ⊂ C.
Veja a Figura 7.1. Tome w ∈ B(z, tε). Sabemos que existe (xk ) ⊂ C tal que xk → x.
Definindo q k = 1t w − 1−t
t
xk , temos w = (1 − t)xk + tq k e q k → 1t w − 1−t
t
x. Além disso,
k t w − t x−yk = t kw −(1−t)x−tyk < ε. Portanto, existe k0 ∈ IN tal que kq k0 −yk < ε,
1 1−t 1
xk qk
w
x z y
Capı́tulo 4
4.2. Temos ∇f (x̄)T d = d1 . Caso d1 < 0, podemos ( aplicar
) o Teorema 4.2 para concluir
1 (td2 )2
o que se pede. Para d1 = 0 temos f (x̄ + td) = f = f (x̄) + . Portanto, a
td2 2
função cresce ao longo de d.
1
4.3. (a) Note que f (x + v) − f (x) = v T Av + ∇f (x)T v. Assim, como ∇f (x)T d = 0,
2
temos
t2
f (x + td) − f (x) = dT Ad ≥ 0,
2
para todo t ∈ IR. Portanto, a função cresce ao longo de d.
(b) Considere ϕ(t) = f (x + td). Então,
( )T
ϕ0 (t) = ∇f (x + td)T d = A(x + td) + b d = ∇f (x)T d + tdT Ad.
Capı́tulo 5
5.3. Considere f (x) = x2 e d = −f 0 (x) = −2x. A condição de Armijo com α = 1/2 é
dada por
1
(x + λd)2 < x2 + λ(2x)(−2x).
2
Equivalentemente, 2λxd + λ d < −2λx , ou ainda 4λ2 x2 < 2λx2 , o que significa λ < 1/2.
2 2 2
1
Definindo x0 = 1 e escolhendo λk = k+2 , temos
2
( )
1 1
x k+1
= x + k+2 (−2x ) = x 1 − k+1 .
k k k
2 2
( )( ) ( )
1 1 1
Note que x = 1 −
k
1 − 2 · · · 1 − k e (xk ) é uma sequência decrescente de
2 2 2
números positivos. Vamos provar que x̄ = lim xk > 0, o que significa que x̄ não é
k→∞
estacionário.
Primeiramente note que por ser g(x) = − ln(x) uma função convexa, tomando
x ∈ [1/2, 1], temos x = (1 − t)1/2 + t, com t ∈ [0, 1], 1 − t = 2(1 − x) e
Assim,
∑k ( ) ∑k ( ) ∑∞
1 1 1
k
g(x ) = g 1− j < j
ln 4 < ln 4 = ln 4
j=1
2 j=1
2 j=1
2j
1 1 1
e, consequentemente, xk = k
> . Deste modo, x̄ = lim xk ≥ , completando
exp(g(x )) 4 k→∞ 4
a prova.
5.7. Temos ∇f (x) = ∇h(x + x̄) e ∇2 f = ∇2 h = A. Além disso,
∇f (xk )T ∇f (xk )
x k+1
=x −
k
∇f (xk ).
∇f (x ) A∇f (x )
k T k
∇h(y k )T ∇h(y k )
y k+1 = y k − ∇h(y k ).
∇h(y k )T A∇h(y k )
Capı́tulo 6
6.5. Suponha por absurdo que existe u ∈ P (S), u 6= 0. Como 0 ∈ int(S), existe δ > 0 tal
que v = δu ∈ S. Como u ∈ P (S), v também pertence, pois P (S) é um cone. Por outro
lado, v ∈ S, donde segue que v T v ≤ 0 o que é uma contradição.
Dicas e soluções dos exercı́cios 98
6.6. Pelo Lema 6.7, basta mostrar que P (P (C)) ⊂ C. Para isso, considere c ∈ P (P (C)),
A = B T e x ∈ IRn tal que
Ax ≤ 0. (7.1)
Portanto, xT (AT y) = (Ax)T y ≤ 0, para todo y ≥ 0, donde segue que x ∈ P (C). Como
c ∈ P (P (C)), obtemos
cT x ≤ 0,
que junto com (7.1) significa que o primeiro sistema no Lema 6.10 não tem solução. Então
o segundo sistema do lema é possı́vel, ou seja, c ∈ C.
6.7. Dado d ∈ C, temos d = By, para algum y ≥ 0. Caso posto(B) = m, temos
∪
d∈ CJ , pois J = {1, . . . , m} ∈ J . Caso contrário, existe γ ∈ IRm \{0} tal que Bγ = 0.
J∈J
Assim, d = By = B(y +tγ), para todo t ∈ IR. Escolhendo t̄ tal que ȳ = y + t̄γ ≥ 0 e ȳj = 0
para algum j (veja os detalhes na demonstração do Lema 6.9), obtemos d = B ȳ = BJ ȳJ ,
onde J = {1, . . . , m} \ {j}. Repetindo este argumento até que J ∈ J , concluı́mos o
exercı́cio.
6.8. Considere primeiro o caso em que posto(B) = m. Seja (dk ) ⊂ C, tal que dk → d 6= 0.
yk
Então, dk = By k , com y k ≥ 0. Sem perda de generalidade, podemos supor que k → u,
ky k
com kuk = 1. Deste modo,
( k )
1 k y
d =B → Bu 6= 0.
ky k
k ky k k
Como (dk ) é convergente, temos que (y k ) é limitada e, novamente s.p.g., vamos supor que
y k → y. Assim, dk = By k → By, com y ≥ 0. Portanto, d = By ∈ C. O caso em que
posto(B) < m decorre imediatamente do que fizemos acima e do Exercı́cio 6.7, tendo em
vista que a união finita de fechados é um conjunto fechado.
6.9. Considere (dk ) ⊂ T (x̄), com dk → d. Vamos mostrar que d ∈ T (x̄). Isto é imediato
se d = 0. Suponha então que d 6= 0 e que (s.p.g.) dk 6= 0, para todo k ∈ IN. Fixado
k ∈ IN, como dk ∈ T (x̄), existe sequência (xk,j )j∈IN ⊂ Ω Tal que
j xk,j − x̄ j dk
xk,j → x̄ e q k,j = → k .
kxk,j − x̄k kd k
xk − x̄ d
Portanto, = qk → , implicando em d ∈ T (x̄).
kx − x̄k
k kdk
6.17. Seja x̄ um minimizador global do problema
A existência
de x̄ é garantida pois o conjunto viável deste problema é compacto. Como
1
x̃ = 1 cumpre as restrições acima, temos que f (x̄) ≤ f (x̃) = 3. Afirmamos que x̄
1
é solução global do problema original. De fato, seja x ∈ IR3 tal que x1 x2 x3 = 1. Caso
x21 + x22 + x23 ≤ 3, temos f (x̄) ≤ f (x). Por outro lado, se x21 + x22 + x23 > 3, então
f (x̄) ≤ 3 < x21 + x22 + x23 = f (x).
Referências Bibliográficas
[6] J-B. Hiriart-Urruty and C. Lemarechal. Convex Analysis and Minimization Algo-
rithms I. Springer-Verlag, New York, 1993.
[7] A. Howard and C. Rorres. Álgebra Linear com Aplicações. Bookman, Porto Alegre,
8nd edition, 2001.
[11] E. W. Karas, A. M. Mota, and A. A. Ribeiro. On the convergence rate of the cauchy
algorithm in the l2 norm. Technical report, Federal University of Paraná, Brazil,
2005.
100
Referências Bibliográficas 101
[14] Steven J. Leon. Álgebra Linear com Aplicações. Rio de Janeiro, 1999.
[15] E. L. Lima. Curso de Análise, volume 1. IMPA, Rio de Janeiro, Brasil, 1981.
[16] E. L. Lima. Curso de Análise, volume 2. IMPA, Rio de Janeiro, Brasil, 1981.