Escolar Documentos
Profissional Documentos
Cultura Documentos
1
1 Métodos de Otimização Irrestrita
1.1 Método de Newton
O método de Newton, também conhecido como método de Newton-Raphson, é uma
técnica numérica utilizada para encontrar raízes de equações não lineares. Esse método é
amplamente utilizado em várias áreas da matemática, engenharia e ciências.
O principal objetivo do método de Newton é encontrar as soluções de uma equação
não linear, ou seja, encontrar os valores de uma variável que tornam a equação verdadeira.
Ele é especialmente útil quando não é possível obter uma solução analítica direta para
uma determinada equação.
O método de Newton envolve a iteração de um processo para se aproximar das raízes
da equação. Ele começa com uma estimativa inicial e, em cada iteração, utiliza a derivada
da função para calcular uma nova estimativa que está mais próxima da raiz. Esse processo
é repetido até que a estimativa converja para uma solução próxima o suficiente da raiz da
equação.
Uma das vantagens do método de Newton é que ele geralmente converge rapidamente
para a solução desejada, especialmente quando a estimativa inicial está próxima da raiz.
No entanto, ele pode falhar em alguns casos, como quando a derivada da função é zero
ou quando a estimativa inicial está longe da raiz.
O método de Newton é amplamente utilizado em várias aplicações, incluindo otimiza-
ção, modelagem matemática, análise numérica e simulações computacionais. Ele fornece
uma abordagem eficiente e precisa para encontrar raízes de equações não lineares, sendo
uma ferramenta valiosa para resolver uma ampla variedade de problemas complexos.
1.1.1 Motivação
Considere uma função f : Rn → R de classe C 2 . Agora devemos encrotrar a minização
de f de acordo com as condições necessárias de otimalidade.
Resolvendo o sistema de n equações e n variáveis dado por ∇f (x) = 0. Considere
F : Rn → Rn de classe C 1 e o problema de resolver o sistema (normalmente não linear):
F (x) = 0
Para aproximar F por seu polinômio de Taylor de primeira ordem, dado uma estima-
tiva x̄, podemos considerar o sistema linear:
onde JF (x̄) representa a matriz jacobiana de F avaliada em x̄. Se JF (x̄) for inversível,
o sistema pode ser resovildo, logo:
Essa expressão representa uma iteração do método de Newton utilizado para resolver
equações.
Agora para minimizar f , temos que aplicar a estratégia utilizada para F = ∇f , assim
obtém:
x+ = x̄ − (∇2 f (x̄))−1 ∇f (x̄)
2
1.1.2 Algoritmo
(Método de Newton com tamanho de passo variável)
Dados: x0 ∈ Rn
k=0
Repita enquanto ∇f (xk ) ̸= 0
Defina dk = −(∇2 f (xk ))−1 ∇f (xk )
Determine o tamanho do passo tk > 0
Faça xk+1 = xk + tk dk k = k + 1
Teorema:
Suponha que ∇2 f (x) seja definida positiva, para todo x ∈ Rn . Então o Algoritmo do
Método de Newton, com o tamanho do passo tk calculado pela busca exata, é
globalmente convergente, segundo a definição. O mesmo resultado vale se utilizarmos a
busca de Armijo para calcular tk .
3
Portanto, tk ∇f (xk )T H(xk )∇f (xk ) → 0. Mas
De onde segue que tk ≥ 0 → 0. Então, tk < 1 para todo k ∈ N0 , suficientemente grande.
Logo,
Como a função ξ(t) = f (xk + tdk ) − f (xk ) − ηt∇f (xk )T dk é contínua, o teorema do valor
intermediário garante a existência de sk ∈ [tk , t0.8
k ] tal que ξ(sk ) = 0, isto é,
1.1.3 Lemas
Os seguintes resultados auxiliam na determinação das propriedades referentes à ordem de
convergência do método de Newton.
LEMA
Suponha que ∇2 f (x̄) seja definida positiva. Então, existem constantes δ e M > 0 tais
que ∇2 f (x) é definida positiva e
−1
|| (∇2 f (x)) || ≤ M,
para todo x ∈ B(x̄, δ).
Demostração
Seja λ > 0 o menor autovalor de ∇2 f (x̄). Pela continuidade de ∇2 f , existe δ > 0 tal que
∥∇2 f (x) − ∇2 f (x̄)∥ < λ2 ,
para todo x ∈ B(x̄, δ). Assim, dado d ∈ Rn , com ∥d∥ = 1, podemos concluir que
λ λ
dT ∇2 f (x)d = dT ∇2 f (x̄)d + dT [∇2 f (x) − ∇2 f (x̄)]d ≥ λ − 2
= 2
provando que ∇2 f (x) é definida positiva para todo x ∈ B(x̄, δ). Para provar a outra
afirmação, considere x ∈ B(x̄, δ). Vamos denotar A = ∇2 f (x̄) e B = ∇2 f (x). Usando o
mesmo raciocínio, agora aplicado em A2 , obtemos
4
∥Ad∥2 = dT A2 d ≥ λ2 ∥d∥2 ,
LEMA
Seja U ⊆ Rn um conjunto aberto e convexo. Suponha que existe β > 0 tal que
Então,
||∇f (x) − ∇f (y) − ∇2 f (y)(x − y)|| ≤ β∥x − y∥
Para todos x, y ∈ U
Demonstração
terminando a demonstração.
LEMA
∀x, y ∈ U .
Demonstração
5
∥Jh (z)∥ ≤ ∥∇2 f (z) − ∇2 f (y)∥ ≤ L∥z − y∥ ≤ L∥x − y∥ = β
Usando a desigualdade do valor médio, obtemos:
∥∇f (x) − ∇f (y) − ∇2 f (y)(x − y)∥ = ∥h(x) − h(y)∥ ≤ β∥x − y∥ = L∥x − y∥2 ,
terminando a demonstração.
Teorema Seja f : Rn → R uma função de classe C 2 . Suponha que x̄ ∈ Rn seja um
minimizador local de f , com ∇2 f (x̄) definida positiva. Então, existe δ > 0 tal que se
x0 ∈ B(x̄, δ), o Algoritmo do Método de Newton, aplicado com tk = 1 para todo k ∈ N ,
gera uma sequência (xk ) tal que:
(i) ∇2 f (xk ) é definida positiva, para todo k ∈ N ;
(ii) A sequência (xk ) converge superlinearmente para x̄;
(iii) Se ∇2 f é Lipschitz, então a convergência é quadrática.
Demonstração
Sejam δ e M as constantes definidas no Lema mostrado anteriormente e U = B(x̄, δ).
Assim, se xk ∈ U , o passo de Newton está bem definido e, como ∇f (x̄) = 0, vale
xk+1 − x̄ = (∇2 f (xk ))−1 (∇f (x̄) − ∇f (xk ) − ∇2 f (xk )(x̄ − xk )).
1
Podemos diminuir δ, se necessário, de modo que supx,y∈U ∥∇2 f (x)−∇2 f (y)∥ < 2M
. Pelos
Lemas, então concluimos que
1
∥xk+1 − x̄∥ ≤ ∥xk − x̄∥.
2
Isto prova que a sequência (xk ) está bem definida, que xk ∈ U para todo k ∈ N , e que
xk → x̄, donde segue (i). Agora, vejamos que a convergência é superlinear. Dado ε > 0,
considere δ0 < δ tal que supx,y∈U0 ∥∇2 f (x) − ∇2 f (y)∥ < Mε , onde U0 = B(x̄, δ0 ). Tome
k0 ∈ N tal que xk ∈ U0 , para todo k ≥ k0 . Aplicando novamente os lemas, obtemos
k∥xk+1 − x̄∥ ≤ M L∥xk − x̄∥2 .
completando a demonstração
6
1.2.1 Algoritmo
Dado x0 ∈ Rn e k = 0, repita enquanto ∇f (xk ) ̸= 0:
Defina dk = −∇f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faça xk+1 = xk + tk dk
k =k+1
Teorema
O Algoritmo anteriormente, com o tamanho do passo tk calculado pela busca exata, é
globalmente convergente.
Lema
Dado x ∈ Rn , x ̸= 0, considere d = −Ax. Então,
dT d xT Ax
≤ .
dT AD xT A2 x
Demonstração
xT Ax = dT A−1 d e xT A2 x = dT d. P ortanto,
dT dxT A2 x (dT d)2
dT AdxT Ax
= (dT Ad)(dT A−1 )d)
Como A > 0, existe G ∈ Rn×n tal que A = GGT . Fazendo u = GT d e v = G−1 d, temos
que uT v = dT d, uT u = dT Ad e v T v = dT A−1 d. Pela desigualdade de Cauchy-Schwarz,
podemos concluir de que
dT dxT A2 x
≤ 1,
dT Adxt Ax
completando a demonstração.
Teorema
Considere a função quadrática da forma
1
f (x) = xT Ax + bT x + c.
2
q
λ1
E a sequência (xk ) gerada pelo Algoritmo de Descida, com busca exata. Se γ = 1− λn
,
então
k∥xk+1 − x∗ ∥2 ≤ γ∥xk − x∗ ∥2 ,
∀k ∈ N .
Demonstrção
7
Como dk = −∇f (xk ) = −Axk , temos
∥xk+1 ∥22 ≤ ∥xk ∥22 − 2tk (xk )T Axk + tk (xk )T Axk = ∥xk ∥22 − tk (xk )T Axk .
1.2.2 Resumo
É importante destacar que, na prática, o método do gradiente é frequentemente consi-
derado ineficiente para a maioria das aplicações. Isso ocorre principalmente devido à sua
lentidão ao lidar com superfícies de nível muito alongadas. Em comparação com outros
métodos, o desempenho do método do gradiente tende a ser inferior.
No entanto, apesar de suas limitações práticas, o método do gradiente desempenha
um papel fundamental no contexto histórico, teórico e educacional. Ele fornece uma base
sólida para entender os conceitos de otimização e a busca por mínimos locais. Portanto,
mesmo que existam abordagens mais eficientes disponíveis, o estudo do método do gradi-
ente continua sendo essencial para a compreensão geral do campo.
8
1.3.1 Método DFP
Lema
Suponha que no Algoritmo do Método Quase-Newton o tamanho do passo tk seja obtido
por uma minimização local de f (xk + tdk ) e que Hk seja definida positiva. Então,
(pk )T q k > 0 e Hk+1
DF P
é definida positiva.
Teorema
Suponha que o Algoritmo de Quase-Newton é aplicado para minimizar uma função
quadrática, com tk obtido por uma minimização local de f (xk + tdk ) e Hk+1 calculada
pela equação DFP. Então, para todo j = 0, 1, . . . , k:
1. Hk+1 qj = pj ;
2. ∇f (xk+1 )T dj = 0;
3. dk+1T Adj = 0;
4. pk+1T q j = q k+1T pj = 0.
Para todo j = 0, 1, . . . , k − 1.
Recordando o teorema de Taylor que ∇fk+1 = ∇fk +αk Ḡk pk , podemos observar que, para
qualquer direção da forma pk+1 = −∇fk+1 + βk+1 pk , a condição pTk+1 Ḡk pk ≤ 0 requer que
βk+1 seja dado por HS. Mais adiante, vemos que é possível garantir a convergência global
para qualquer parâmetro βk que satisfaça o limite
9
|βk | ≤ βFk R ,
Para todos k ≥ 2, esse fato sugere a seguinte modificação do método PR, que tem apre-
sentado bom desempenho em algumas aplicações. Para todos k ≥ 2, tem que
10
1.5.1 Algoritmo
Dado: x0 ∈ Rn , ∆0 > 0, η ∈ [0, 14 ) e k = 0.
Repita enquanto ∇f (xk ) ̸= 0:
Obtenha dk , solução aproximada do subproblema
Calcule ρk usando a razão entre reduções real e predita
Se ρk > η:
xk+1 = xk + dk
Senão:
xk+1 = xk
Se ρk < 14 :
∆k+1 = ∆2k
Senão
Se ρk > 34 e ∥dk ∥ = ∆k :
∆k+1 = 2∆k
Senão:
∆k+1 = ∆k
k =k+1
Observações:
A redução predita será positiva. O raio foi aumentado quando a redução da função
objetivo for grande e o passo dk está fora da região de confiança.
kc = −tk gk ,
sujeito a ∥tgk ∥ ≤ ∆k ,
Imagine que a solução aproximada do subproblema forneça uma redução de mínimo
uma fração da redução obtida pelo passo de Cauchy.
LEMA
O passo de Cauchy, definido por dck = −tk gkc , satisfaz
∥gk ∥
mk(0) − mk(dck ) ≥ 21 ∥gk ∥ min { ∆ k (∥Bk ∥)
.
Demonstração
11
No intervalo 0 ≤ t ≤ ∥g∆kk∥ , considerando dois casos: gkT Bk gk > 0 e gkT Bk gk ≤ 0.
(i) Se gkT Bk gk > 0, então a função ξ é convexa e tem um minimizador irrestrito.
∥gk ∥2
t∗ =
gkT Bk gk
.
∆k
No primeiro caso, quando t∗ ≤ ∥gk ∥2
, temos tk = t∗ , e portanto,
1 ∥gk ∥2
mk (0) − mk (dkc ) =
2 gkT Bk gk
1 ∥gk ∥2
mk (0) − mk (dkc ) ≥
2 ∥Bk ∥
∆k
No segundo subcaso, temos t∗ > ∥gk ∥
, o que implica que o minimizador de ξ está na
fronteira. Assim, obtemos:
∆k ∥gk ∥2
tk = < T ,
∥gk ∥ gk Bk gk
implicando em
t2k gkT Bk gk < tk ∥gk ∥2 = ∥gk ∥∆k .
Portanto, mk (dkc ) < f (xk ) − ∥gk ∥∆k + 21 ∥gk ∥∆k = f (xk ) − 12 ∥gk ∥∆k ,
segue que,
1
mk (0) − mk (dkc ) > ∥gk ∥∆k .
2
(ii) Agora o caso em que
gkT Bk gk ≤ 0, f ornecendo
1
mk (dkc ) = f (xk ) − tk ∥gk ∥2 + t2k gkT Bk gk ≤ f (xk ) − tk ∥gk ∥2 .
2
Neste caso, a função ξ é decrescente para t ≥ 0, portanto, o ponto de Cauchy também
está na fronteira da região de confiança, ou seja,
∆k
tk = .
∥gk ∥
Portanto, por,
1
mk (0) − mk (dkc ) ≥ ∥gk ∥∆k ≥ ∥gk ∥∆k .
2
logo,
1 ∥gk ∥
mk (0) − mk (dkc ) ≥ ∥gk ∥ min { ∆ k ,
2 ∥Bk ∥
o que demonstra o resultado.
12
1.5.3 Convergência
Hipóteses para estabelecer a convergência:
H1: A função objetivo f é de classe C 1 , com ∇f Lipschitz.
H2: A solução aproximada dk do subproblema satisfaz
k k ∥∇f (xk )∥
pred = mk (0) − mk (d ) ≥ c1 ∥∇f (x )∥ min{∆k , }
β
sendo c1 ∈ (0, 1) uma constante.
H3: O passo dk satisfaz ||dk || ≤ γ∆k , para alguma constante γ ≥ 1.
H4: As Hessianas Bk são uniformemente limitadas, isto é, existe uma constante β > 0
tal que ||Bk || ≤ β para todo k ∈ N .
H5: A função f é limitada inferiormente no conjunto de nível.
N = {x ∈ Rn | f (x) ≤ f (x0 )}
LEMA Suponha que sejam satisfeitas as Hipóteses H1-H4. Então existe uma constante
c > 0 tal que
c∆k
|ρk − 1| ≤ .
∥∇f (xk )∥ min(∆k , ∥∇fβ(xk )∥ )
Demonstração
Pelo teorema do valor médio,
Assim,
ared − pred c0 ∆2k
|ρk − 1| ≤ | |≤ ,
pred c1 ∥∇f (xk )∥ min{∆k , ∥∇fβ(xk ) }
c0
provando o lema para c = c1
.
Demonstração
13
Vamos supor por absurdo que isto seja falso.
n Então existe ε > 0 tal que ∥∇f (xk )∥ ≥ ε
o
para todo k ∈ N . Considere ∆ = min βε , 2cε , onde β e c são as constantes do Lema
anterior. Se ∆k ≤ ∆, então
ε ∥∇f (xk )∥
∆k ≤ ≤
β β
e
ε
∆k ≤
2c
Pelo lema,
c∆k 1
|ρk − 1| ≤ ≤ .
ε 2
1 1
Assim, ρk ≥ 2 > 4 e pelo Algoritmo temos ∆k+1 ≥ ∆k . Isto significa que o raio é reduzido
somente se ∆k > ∆, caso em que ∆k+1 = ∆2k > ∆2 . Podemos então concluir que
∆
∆k ≥ min{∆0 , }
2
para todo k ∈ N . Considere o conjunto
1
K = {k ∈ N | ρk ≥ }.
4
Dado k ∈ N , pelo mecanismo do algoritmo e pela segunda hipótese H2 temos
1 1 ϵ
f (xk ) − f (xk+1 ) = f (xk ) − f (xk + dk ) ≥ (mk (0) − mk (dk )) ≥ c1 ϵ min{∆k , }
4 4 β
temos que existe uma constante δ > 0 tal que
f (xk ) − f (xk+1 ) ≥ δ,
para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, pela hipótese
H4, limitada inferiormente, donde segue que f (xk ) − f (xk+1 ) → 0. Portanto, podemos
concluir que o conjunto K é finito. Assim, ρk < 41 , para todo k ∈ N suficientemente
grande e então ∆k será reduzido à metade em cada iteração. Isto implica ∆k → 0, o que
contradiz. Deste modo, a afirmação no teorema é verdadeira.
∇f (xk ) → 0.
Demonstração
K = {k ∈ N | ∥∇f (xk )∥ ≥ ε}
seja infinito. Dado k ∈ K, considere o primeiro índice lk > k tal que ∥∇f (xlk )∥ ≤ 2ε .
A existência de lk é assegurada pelo Teorema anterior. Como ∇f é Lipschitz, temos
ε
≤ ∥k∇f (xk ) − ∇f (xlk )∥ ≤ L∥xk − xlk ∥,
2
14
para alguma constante L > 0. Portanto,
ε
≤ ∥xk − xlk ∥ ≤ ∥xj − xj+1 ∥ ≤
X X
γ∆j ,
2L j∈Sk j∈Sk
ηc1 ϵ2 ηc1 ϵ2
n o
Definindo δ̃ = min 2·2γL
, β , obtemos
f (xk ) − f (xlk ) ≥ δ̃
para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, por H4, limitada
inferiormente, donde segue que f (xk )−f (xk+1 ) → 0, contradizendo a desigualdade. Deste
modo, a afirmação no teorema é verdadeira.
15