Você está na página 1de 15

Trabalho Computacional

Resumo apresentado como requisito


parcial para obtencão da média
semestral da disciplina Progrmação Não
Linear.

Antônio Irineu Filho


Carlos Daniel Barbosa Alves
Naiely Da Silva Pinto
Lucas Rian de Sousa Pereira
Luis Guilardo Chaves Soares

1
1 Métodos de Otimização Irrestrita
1.1 Método de Newton
O método de Newton, também conhecido como método de Newton-Raphson, é uma
técnica numérica utilizada para encontrar raízes de equações não lineares. Esse método é
amplamente utilizado em várias áreas da matemática, engenharia e ciências.
O principal objetivo do método de Newton é encontrar as soluções de uma equação
não linear, ou seja, encontrar os valores de uma variável que tornam a equação verdadeira.
Ele é especialmente útil quando não é possível obter uma solução analítica direta para
uma determinada equação.
O método de Newton envolve a iteração de um processo para se aproximar das raízes
da equação. Ele começa com uma estimativa inicial e, em cada iteração, utiliza a derivada
da função para calcular uma nova estimativa que está mais próxima da raiz. Esse processo
é repetido até que a estimativa converja para uma solução próxima o suficiente da raiz da
equação.
Uma das vantagens do método de Newton é que ele geralmente converge rapidamente
para a solução desejada, especialmente quando a estimativa inicial está próxima da raiz.
No entanto, ele pode falhar em alguns casos, como quando a derivada da função é zero
ou quando a estimativa inicial está longe da raiz.
O método de Newton é amplamente utilizado em várias aplicações, incluindo otimiza-
ção, modelagem matemática, análise numérica e simulações computacionais. Ele fornece
uma abordagem eficiente e precisa para encontrar raízes de equações não lineares, sendo
uma ferramenta valiosa para resolver uma ampla variedade de problemas complexos.

1.1.1 Motivação
Considere uma função f : Rn → R de classe C 2 . Agora devemos encrotrar a minização
de f de acordo com as condições necessárias de otimalidade.
Resolvendo o sistema de n equações e n variáveis dado por ∇f (x) = 0. Considere
F : Rn → Rn de classe C 1 e o problema de resolver o sistema (normalmente não linear):

F (x) = 0

Para aproximar F por seu polinômio de Taylor de primeira ordem, dado uma estima-
tiva x̄, podemos considerar o sistema linear:

F (x̄) + JF (x̄)(x − x̄) = 0

onde JF (x̄) representa a matriz jacobiana de F avaliada em x̄. Se JF (x̄) for inversível,
o sistema pode ser resovildo, logo:

x+ = x̄ − (JF (x̄))−1 F (x̄)

Essa expressão representa uma iteração do método de Newton utilizado para resolver
equações.
Agora para minimizar f , temos que aplicar a estratégia utilizada para F = ∇f , assim
obtém:
x+ = x̄ − (∇2 f (x̄))−1 ∇f (x̄)

2
1.1.2 Algoritmo
(Método de Newton com tamanho de passo variável)
Dados: x0 ∈ Rn
k=0
Repita enquanto ∇f (xk ) ̸= 0
Defina dk = −(∇2 f (xk ))−1 ∇f (xk )
Determine o tamanho do passo tk > 0
Faça xk+1 = xk + tk dk k = k + 1

Teorema:

Suponha que ∇2 f (x) seja definida positiva, para todo x ∈ Rn . Então o Algoritmo do
Método de Newton, com o tamanho do passo tk calculado pela busca exata, é
globalmente convergente, segundo a definição. O mesmo resultado vale se utilizarmos a
busca de Armijo para calcular tk .

Demonstração: Segue os passos abaixo com H(x) = (∇2 f (c))− 1.


Sejam (xk ) uma sequência que foi gerada pelo algoritmo e x̄ um ponto de acumulação
de (xk ), digamos xk → x̄. Agora, vamos supor por absurdo, que ∇f (x̄) ̸= 0. Assim,
d¯ = −H(x̄)∇f (x̄) é uma direção de descida, o que garante a existência de t > 0 tal que
¯ > 0. Considere h : Rn → R dada por h(x) = f (x) − f (x − tH¯∇f (x)).
δ = f (x̄) − f (x̄ + td)
Como h é contínua, temos que h(xk ) → h(x̄) = δ. Portanto,
δ
f (xk ) − f (xk+tdk̄ ) = h(xk ) ≥ ,
2
para todo k ∈ N0 , suficientemente grande. Deste modo, como tk foi obtido pela busca
exata, podemos concluir que
δ
f (xk+1 ) = f (xk + tk dk ) ≤ f (xk + tdk̄) ≤ f (xk ) − ,
2
logo,
δ
f (xk ) − f (xk+1 ) ≥ ,
2
Para todo k ∈ N0 , suficientemente grande. Por outro lado, pela continuidade de f , temos
f (xk ) → f (x̄). Como a sequência (f (xk ))k∈N é decrescente, o teorema que diz que Seja
(xk ) ⊂ R uma sequência monótona que possui uma subsequência convergente, digamos
xk → a. Então xk → a garente que f (xk ) → f (x̄), contradizendo.

Utilizando a busca de Armijo para calcular tk , também podemos garantir a convergência.


Sejam (xk ) uma sequência gerada pelo algoritmo e x̄ um ponto de acumulação de (xk ),
digamos xk → x̄. Suponha, por absurdo, que ∇f (x̄) ̸= 0. Pela continuidade de f , temos
f (xk ) → f (x̄). Como a sequência (f (xk )) é monótona não crescente, podemos concluir
que f (xk ) → f (x̄). Por outro lado, pela condição de Armijo, temos

f (xk+1 ) = f (xk + tk dk ) ≤ f (xk ) + ηtk ∇f (xk )T dk .

Usando a definição de dk e a positividade de H(xk ), obtemos

f (xk ) − f (xk+1 ) ≥ ηtk ∇f (xk )T H(xk )∇f (xk ) ≥ 0.

3
Portanto, tk ∇f (xk )T H(xk )∇f (xk ) → 0. Mas
De onde segue que tk ≥ 0 → 0. Então, tk < 1 para todo k ∈ N0 , suficientemente grande.
Logo,

f (xk + tk dk ) ≤ f (xk ) + ηtk ∇f (xk )T dk


e
f (xk + t0.8 k k 0.8 k T k
k d ) > f (x ) + ηtk ∇f (x ) d .

Como a função ξ(t) = f (xk + tdk ) − f (xk ) − ηt∇f (xk )T dk é contínua, o teorema do valor
intermediário garante a existência de sk ∈ [tk , t0.8
k ] tal que ξ(sk ) = 0, isto é,

f (xk + sk dk ) − f (xk ) = ηsk ∇f (xk )T dk .

Aplicando agora o teorema do valor médio, obtemos

∇f (xk + θk sk dk )T (sk dk ) = f (xk + sk dk ) − f (xk ) = ηsk ∇f (xk )T dk ,

com θk ∈ (0, 1). Portanto,

∇f (xk + θk sk dk )T H(xk )∇f (xk ) = η∇f (xk )T H(xk )∇f (xk ).

Como sk → 0 pois sk ∈ [tk , t0.8


k ] e tk → 0, podemos concluir que

∇f (x̄)T H(x̄)∇f (x̄) = η∇f (x̄)T H(x̄)∇f (x̄),

o que é uma contradição.

1.1.3 Lemas
Os seguintes resultados auxiliam na determinação das propriedades referentes à ordem de
convergência do método de Newton.
LEMA
Suponha que ∇2 f (x̄) seja definida positiva. Então, existem constantes δ e M > 0 tais
que ∇2 f (x) é definida positiva e

−1
|| (∇2 f (x)) || ≤ M,
para todo x ∈ B(x̄, δ).
Demostração
Seja λ > 0 o menor autovalor de ∇2 f (x̄). Pela continuidade de ∇2 f , existe δ > 0 tal que
∥∇2 f (x) − ∇2 f (x̄)∥ < λ2 ,
para todo x ∈ B(x̄, δ). Assim, dado d ∈ Rn , com ∥d∥ = 1, podemos concluir que
λ λ
dT ∇2 f (x)d = dT ∇2 f (x̄)d + dT [∇2 f (x) − ∇2 f (x̄)]d ≥ λ − 2
= 2

provando que ∇2 f (x) é definida positiva para todo x ∈ B(x̄, δ). Para provar a outra
afirmação, considere x ∈ B(x̄, δ). Vamos denotar A = ∇2 f (x̄) e B = ∇2 f (x). Usando o
mesmo raciocínio, agora aplicado em A2 , obtemos

4
∥Ad∥2 = dT A2 d ≥ λ2 ∥d∥2 ,

para todo d ∈ Rn . Portanto,

∥Bd∥ = ∥Ad + (B − A)d∥ ≥ ∥Ad∥ − ∥(B − A)d∥ ≥ λ∥d∥ − λ/2∥d∥ = λ2 ∥d∥.

Considere agora y ∈ Rn , com ∥y∥ = 1. Aplicando a relação acima para d = B −1 y,


concluímos que

1 = ∥y∥ = ∥BB −1 y∥ ≥ λ2 ∥B −1 y∥.

Portanto, para M = λ2 , temos ∥(∇2 f (x))−1 ∥ = ∥B −1 ∥ ≤ M , completando a demonstração.

LEMA

Seja U ⊆ Rn um conjunto aberto e convexo. Suponha que existe β > 0 tal que

sup ∥∇2 f (x) − ∇2 f (y)∥ ≤ β.


x,y∈U

Então,
||∇f (x) − ∇f (y) − ∇2 f (y)(x − y)|| ≤ β∥x − y∥
Para todos x, y ∈ U

Demonstração

Para y ∈ U , considerando h : Rn → Rn definida por h(x) = ∇f (x) − ∇2 f (y)x, temos que

Jh (x) = (∇2 f (x) − ∇2 f (y))x ≤ β,

para todo x ∈ U . De acordo com o Teorema do Valor Médio, obtemos

||∇f (x) − ∇f (y) − ∇2 f (y)(x − y)|| = h(x) − h(y) ≤ ||βx − y||,

terminando a demonstração.

LEMA

Seja U ⊂ Rn um conjunto aberto e convexo. Se ∇2 f é Lipschitz contínua com constante


L, então

∥∇f (x) − ∇f (y) − ∇2 f (y)(x − y)∥ ≤ L∥x − y∥2 ,

∀x, y ∈ U .

Demonstração

Sejam x, y ∈ U , onde U ⊂ Rn é um conjunto aberto e convexo. Definimos β = L∥x − y∥


e a função h : Rn → Rn como

h(z) = ∇f (z) − ∇2 f (y)z.

Assim, para todo z ∈ [x, y], temos

5
∥Jh (z)∥ ≤ ∥∇2 f (z) − ∇2 f (y)∥ ≤ L∥z − y∥ ≤ L∥x − y∥ = β
Usando a desigualdade do valor médio, obtemos:

∥∇f (x) − ∇f (y) − ∇2 f (y)(x − y)∥ = ∥h(x) − h(y)∥ ≤ β∥x − y∥ = L∥x − y∥2 ,
terminando a demonstração.
Teorema Seja f : Rn → R uma função de classe C 2 . Suponha que x̄ ∈ Rn seja um
minimizador local de f , com ∇2 f (x̄) definida positiva. Então, existe δ > 0 tal que se
x0 ∈ B(x̄, δ), o Algoritmo do Método de Newton, aplicado com tk = 1 para todo k ∈ N ,
gera uma sequência (xk ) tal que:
(i) ∇2 f (xk ) é definida positiva, para todo k ∈ N ;
(ii) A sequência (xk ) converge superlinearmente para x̄;
(iii) Se ∇2 f é Lipschitz, então a convergência é quadrática.
Demonstração
Sejam δ e M as constantes definidas no Lema mostrado anteriormente e U = B(x̄, δ).
Assim, se xk ∈ U , o passo de Newton está bem definido e, como ∇f (x̄) = 0, vale
xk+1 − x̄ = (∇2 f (xk ))−1 (∇f (x̄) − ∇f (xk ) − ∇2 f (xk )(x̄ − xk )).
1
Podemos diminuir δ, se necessário, de modo que supx,y∈U ∥∇2 f (x)−∇2 f (y)∥ < 2M
. Pelos
Lemas, então concluimos que

1
∥xk+1 − x̄∥ ≤ ∥xk − x̄∥.
2
Isto prova que a sequência (xk ) está bem definida, que xk ∈ U para todo k ∈ N , e que
xk → x̄, donde segue (i). Agora, vejamos que a convergência é superlinear. Dado ε > 0,
considere δ0 < δ tal que supx,y∈U0 ∥∇2 f (x) − ∇2 f (y)∥ < Mε , onde U0 = B(x̄, δ0 ). Tome
k0 ∈ N tal que xk ∈ U0 , para todo k ≥ k0 . Aplicando novamente os lemas, obtemos
k∥xk+1 − x̄∥ ≤ M L∥xk − x̄∥2 .
completando a demonstração

1.2 Método do Gradiente


O Método do Gradiente é um dos métodos de descida mais conhecidos e amplamente
utilizados na otimização. Ele faz parte da família de algoritmos de otimização baseados
em gradiente e é particularmente eficaz em problemas de otimização convexa.
O objetivo dos métodos de descida é encontrar o mínimo (ou máximo) de uma função.
No caso do Método do Gradiente, o algoritmo segue a direção oposta do gradiente da
função em cada iteração, em busca do mínimo local ou global. O gradiente é um vetor
que aponta na direção do maior aumento da função, portanto, ao seguir a direção oposta,
o algoritmo busca diminuir a função iterativamente até chegar a um ponto de mínimo.
Em resumo, o Método do Gradiente é um dos métodos de descida mais conhecidos e
eficazes na otimização. Ele segue a direção oposta do gradiente da função em busca do mí-
nimo local ou global. Embora possa ter algumas limitações, é um algoritmo fundamental
usado em várias áreas da ciência de dados e otimização.

6
1.2.1 Algoritmo
Dado x0 ∈ Rn e k = 0, repita enquanto ∇f (xk ) ̸= 0:
Defina dk = −∇f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faça xk+1 = xk + tk dk
k =k+1

Teorema
O Algoritmo anteriormente, com o tamanho do passo tk calculado pela busca exata, é
globalmente convergente.

A demonstração segue os mesmos passos do teoremas anteriormentes com H(x) = I ∈


Rn×n . O mesmo resultado vale se utilizarmos a busca de Armijo para calcular tk .

Lema
Dado x ∈ Rn , x ̸= 0, considere d = −Ax. Então,

dT d xT Ax
≤ .
dT AD xT A2 x
Demonstração

xT Ax = dT A−1 d e xT A2 x = dT d. P ortanto,
dT dxT A2 x (dT d)2
dT AdxT Ax
= (dT Ad)(dT A−1 )d)

Como A > 0, existe G ∈ Rn×n tal que A = GGT . Fazendo u = GT d e v = G−1 d, temos
que uT v = dT d, uT u = dT Ad e v T v = dT A−1 d. Pela desigualdade de Cauchy-Schwarz,
podemos concluir de que

dT dxT A2 x
≤ 1,
dT Adxt Ax
completando a demonstração.

Teorema
Considere a função quadrática da forma

1
f (x) = xT Ax + bT x + c.
2
q
λ1
E a sequência (xk ) gerada pelo Algoritmo de Descida, com busca exata. Se γ = 1− λn
,
então

k∥xk+1 − x∗ ∥2 ≤ γ∥xk − x∗ ∥2 ,

∀k ∈ N .

Demonstrção

7
Como dk = −∇f (xk ) = −Axk , temos

|xk+1 ∥22 = (xk + tk dk )T (xk + tk dk )

= (xk )T xk + 2tk (xk )T dk + t2k (dk )T dk

= {∥xk ∥22 − 2tk (xk )T Axk + t2k (xk )T A2 xk .

Usando o lemas de antes, obtemos

∥xk+1 ∥22 ≤ ∥xk ∥22 − 2tk (xk )T Axk + tk (xk )T Axk = ∥xk ∥22 − tk (xk )T Axk .

Caso xk = 0 não há nada a fazer. Suponha então que xk ̸= 0. Obtemos

∥xk+1 ∥22 (dk )T dk (xk )T Axk


k ≤ 1 − .
∥xk ∥22 (dk )T Adk (xk )T xk

Utilizando o lema, segue que


∥xk+1 ∥22 λ1
k k 2
≤1− ,
∥x ∥2 λn
terminando a demonstração.

1.2.2 Resumo
É importante destacar que, na prática, o método do gradiente é frequentemente consi-
derado ineficiente para a maioria das aplicações. Isso ocorre principalmente devido à sua
lentidão ao lidar com superfícies de nível muito alongadas. Em comparação com outros
métodos, o desempenho do método do gradiente tende a ser inferior.
No entanto, apesar de suas limitações práticas, o método do gradiente desempenha
um papel fundamental no contexto histórico, teórico e educacional. Ele fornece uma base
sólida para entender os conceitos de otimização e a busca por mínimos locais. Portanto,
mesmo que existam abordagens mais eficientes disponíveis, o estudo do método do gradi-
ente continua sendo essencial para a compreensão geral do campo.

1.3 Método Quase - Newton


Esse método é chamados de "quase-Newton"porque eles tentam aproximar a matriz
Hessiana da função (que é cara de calcular) através de uma abordagem iterativa. O
método de quase-Newton é uma abordagem eficiente para otimização de funções quando
o cálculo direto da matriz Hessiana não é possível ou é muito caro.
Historicamente, o primeiro método quase-Newton é o método de Davidon-Fletcher-
Powell (DFP), que assume H0 como uma matriz simétrica positiva arbitrária. Assim,
para todo k, temos

DF P pk (pk )t (Hk q k )(Hk q k )t


Hk+1 = Hk + − ,
(pk , q k ) (Hk q k , q k )

onde pk e q k são vetores definidos como pk = xk+1 − xk e q k = ∇f (xk+1 ) − ∇f (xk ).

8
1.3.1 Método DFP
Lema
Suponha que no Algoritmo do Método Quase-Newton o tamanho do passo tk seja obtido
por uma minimização local de f (xk + tdk ) e que Hk seja definida positiva. Então,
(pk )T q k > 0 e Hk+1
DF P
é definida positiva.

Teorema
Suponha que o Algoritmo de Quase-Newton é aplicado para minimizar uma função
quadrática, com tk obtido por uma minimização local de f (xk + tdk ) e Hk+1 calculada
pela equação DFP. Então, para todo j = 0, 1, . . . , k:
1. Hk+1 qj = pj ;
2. ∇f (xk+1 )T dj = 0;
3. dk+1T Adj = 0;
4. pk+1T q j = q k+1T pj = 0.

1.4 Método Gradiente Conjugado


Teorema
Seja f : Rn → R uma função quadrática, onde temos que A ∈ Rn×n é uma matriz
simétrica definida positiva e um vetor b ∈ Rn . Para qualquer ponto inicial x0 ∈ Rn e
todo k = 1, . . . , n, se o algoritmo do método do gradiente conjugado gerou vetores
d0 , . . . , dk−1 , então eles formam um conjunto A-conjugado. Além disso, os gradientes
∇f (x0 ), . . . , ∇f (xk−1 ) formam um conjunto de vetores ortogonais no Rn .
Teorema Se xk e dk foram gerados pelo algoritmo da diapositiva anterior, então

∇f (xk )T ∇f (xj ) = 0 e (dk )T Adj = 0

Para todo j = 0, 1, . . . , k − 1.

Na tentativa de solucionar essa deficiência, algumas alternativas são sugeridas. Dentre


elas, podemos destacar a que foi desenvolvida por Hestenes e Stiefel.
⟨∇f (xk+1 ),∇f (xk+1 )−∇f (xk )⟩
βk−1 = ⟨dk ,∇f (xk+1 )−∇f (xk )⟩

A fórmula de Hestenes-Stiefel, que define


T (∇f
∇fk+1
HS k+1 −∇fk )
βk+1 ≤ (∇fk+1 −∇fk )T pk

A fórmula de Hestenes-Stiefel dá origem a um algoritmo (chamado Algoritmo HS) que


é semelhante ao Algoritmo PR, tanto em termos de suas propriedades de convergência
teóricas quanto em seu desempenho prático. A fórmula pode ser derivada exigindo que as
direções de busca consecutivas sejam conjugadas em relação à média do Hessiana sobre o
segmento de linha [xk , xk + 1], que é definido como
R1
Ḡk ≡ 0 ∇2 f (xk + τ αk pk )dτ.

Recordando o teorema de Taylor que ∇fk+1 = ∇fk +αk Ḡk pk , podemos observar que, para
qualquer direção da forma pk+1 = −∇fk+1 + βk+1 pk , a condição pTk+1 Ḡk pk ≤ 0 requer que
βk+1 seja dado por HS. Mais adiante, vemos que é possível garantir a convergência global
para qualquer parâmetro βk que satisfaça o limite

9
|βk | ≤ βFk R ,
Para todos k ≥ 2, esse fato sugere a seguinte modificação do método PR, que tem apre-
sentado bom desempenho em algumas aplicações. Para todos k ≥ 2, tem que

βk = { − βkBF seβkP R < −βkF R


βk = { βkP R seβkP R ≤ βkF R
βk = { βkF R seβkP R > βkF R

O algoritmo baseado nessa estratégia será denominado FR-PR.

1.5 Método da Região de confiança


O método da região de confiança define um modelo da função objetivo e uma região ao
redor do ponto atual, dentro da qual confiamos nesse modelo para realizar as atualizações.
Calcule um mínimo aproximado e, se ele fornecer uma redução razoável no valor da
função objetivo, aceite e repita o processo. Caso contrário, o modelo pode não representar
adequadamente a função a ser minimizada, então rejeite o ponto e reduza o tamanho da
região de confiança para descobrir um novo minimizador.
Vamos considerar uma função f : Rn → R de classe C 2 e, dado um ponto xk ∈ Rn , o
modelo quadrático de f em torno de xk definido por
qk (x) = f (xk ) + ∇f (xk )T (x − xk ) + 12 (x − xk )T Bk (x − xk )
onde Bk ∈ Rn×n pode ser a hessiana ∇2 f (xk ) ou qualquer outra matriz simétrica que
satisfaça |Bk | ≤ β, para alguma constante β > 0, independente de k ∈ N .
O modelo definido acima aproxima bem a função f em uma vizinhança de xk . Vamos,
portanto, considerar ∆k > 0 e a região
{x ∈ Rn | ∥x − xk ∥ ≤ ∆k },
em que confiamos no modelo. Para simplificar a notação, considere
d = x − xk e mk (d) = qk (xk + d).
Na primeira etapa do método, resolvemos (possivelmente aproximadamente) o sub-
problema
Minimizar mk (d) = f (xk ) + ∇f (xk )T d + 21 dT Bk d
sujeito a ||dk || ≤ ∆k ,
obtendo um passo dk . A outra etapa consiste em avaliar o passo. Esperamos que o
ponto xk +dk proporcione uma redução na função objetivo que seja no mínimo uma fração
da redução do modelo. Para formalizar este conceito, definimos a redução real na função
objetivo e a redução predita pelo modelo como
ared = f (xk ) − f (xk + dk ) e pred = mk (0) − mk (dk ).
Vamos também considerar a seguinte razão, que será usada na avaliação do passo:
ared
pk =
pred
O passo dk será aceito quando a razão ρk for maior que uma constante η > 0 dada.
Neste caso, definimos xk+1 = xk + dk e repetimos o processo. Caso contrário, recusamos
o passo dk , reduzimos o raio ∆k e resolvemos o subproblema com o novo raio.

10
1.5.1 Algoritmo
Dado: x0 ∈ Rn , ∆0 > 0, η ∈ [0, 14 ) e k = 0.
Repita enquanto ∇f (xk ) ̸= 0:
Obtenha dk , solução aproximada do subproblema
Calcule ρk usando a razão entre reduções real e predita
Se ρk > η:
xk+1 = xk + dk
Senão:
xk+1 = xk
Se ρk < 14 :
∆k+1 = ∆2k
Senão
Se ρk > 34 e ∥dk ∥ = ∆k :
∆k+1 = 2∆k
Senão:
∆k+1 = ∆k
k =k+1

Observações:

A redução predita será positiva. O raio foi aumentado quando a redução da função
objetivo for grande e o passo dk está fora da região de confiança.

1.5.2 Passo de Cauchy


O passo de Cauchy vai fornecer uma redução no modelo que nos permite provar a con-
vergência do algoritmo anterior.
Defina gk = ∇f (xk ). O passo de Cauchy é definido como sendo o minimizador de mk
ao longo da direção oposta do gradiente, sujeito à região de confiança, isto é:

kc = −tk gk ,

sendo tk > 0 solução do problema

min mk (−tgk ) = f (xk ) − t∇f (xk )T gk + 12 t2 gkT Bk gk

sujeito a ∥tgk ∥ ≤ ∆k ,
Imagine que a solução aproximada do subproblema forneça uma redução de mínimo
uma fração da redução obtida pelo passo de Cauchy.

LEMA
O passo de Cauchy, definido por dck = −tk gkc , satisfaz
∥gk ∥
mk(0) − mk(dck ) ≥ 21 ∥gk ∥ min { ∆ k (∥Bk ∥)
.

Demonstração

Primeiramente, vamos obter tk , isto é, o minimizador da função quadrática:

ξ(t) = f (xk ) − t∥gk ∥2 + 21 t2 gkT Bk gk

11
No intervalo 0 ≤ t ≤ ∥g∆kk∥ , considerando dois casos: gkT Bk gk > 0 e gkT Bk gk ≤ 0.
(i) Se gkT Bk gk > 0, então a função ξ é convexa e tem um minimizador irrestrito.

∥gk ∥2
t∗ =
gkT Bk gk
.
∆k
No primeiro caso, quando t∗ ≤ ∥gk ∥2
, temos tk = t∗ , e portanto,

1 ∥gk ∥2
mk (0) − mk (dkc ) =
2 gkT Bk gk

Usando a desigualdade de Cauchy-Schwarz, obtemos

1 ∥gk ∥2
mk (0) − mk (dkc ) ≥
2 ∥Bk ∥
∆k
No segundo subcaso, temos t∗ > ∥gk ∥
, o que implica que o minimizador de ξ está na
fronteira. Assim, obtemos:

∆k ∥gk ∥2
tk = < T ,
∥gk ∥ gk Bk gk

implicando em
t2k gkT Bk gk < tk ∥gk ∥2 = ∥gk ∥∆k .
Portanto, mk (dkc ) < f (xk ) − ∥gk ∥∆k + 21 ∥gk ∥∆k = f (xk ) − 12 ∥gk ∥∆k ,
segue que,
1
mk (0) − mk (dkc ) > ∥gk ∥∆k .
2
(ii) Agora o caso em que
gkT Bk gk ≤ 0, f ornecendo

1
mk (dkc ) = f (xk ) − tk ∥gk ∥2 + t2k gkT Bk gk ≤ f (xk ) − tk ∥gk ∥2 .
2
Neste caso, a função ξ é decrescente para t ≥ 0, portanto, o ponto de Cauchy também
está na fronteira da região de confiança, ou seja,
∆k
tk = .
∥gk ∥

Portanto, por,
1
mk (0) − mk (dkc ) ≥ ∥gk ∥∆k ≥ ∥gk ∥∆k .
2
logo,
1 ∥gk ∥
mk (0) − mk (dkc ) ≥ ∥gk ∥ min { ∆ k ,
2 ∥Bk ∥
o que demonstra o resultado.

12
1.5.3 Convergência
Hipóteses para estabelecer a convergência:
H1: A função objetivo f é de classe C 1 , com ∇f Lipschitz.
H2: A solução aproximada dk do subproblema satisfaz

k k ∥∇f (xk )∥
pred = mk (0) − mk (d ) ≥ c1 ∥∇f (x )∥ min{∆k , }
β
sendo c1 ∈ (0, 1) uma constante.
H3: O passo dk satisfaz ||dk || ≤ γ∆k , para alguma constante γ ≥ 1.
H4: As Hessianas Bk são uniformemente limitadas, isto é, existe uma constante β > 0
tal que ||Bk || ≤ β para todo k ∈ N .
H5: A função f é limitada inferiormente no conjunto de nível.

N = {x ∈ Rn | f (x) ≤ f (x0 )}

LEMA Suponha que sejam satisfeitas as Hipóteses H1-H4. Então existe uma constante
c > 0 tal que

c∆k
|ρk − 1| ≤ .
∥∇f (xk )∥ min(∆k , ∥∇fβ(xk )∥ )

Demonstração
Pelo teorema do valor médio,

f (xk + dk ) = f (xk ) + ∇f (xk + θk dk )T dk ,

Com θk ∈ (0, 1). Portanto,


1
ared − pred = (dk )T Bk dk − (∇f (xk + θk dk ) − ∇f (xk ))T dk ,
2
Usando o fato de que ∇f é Lipschitz e a desigualdade de Cauchy-Schwarz, podemos
concluir que existe c0 > 0 tal que:

| ared − pred| ≤ c0 ∆2k .

Assim,
ared − pred c0 ∆2k
|ρk − 1| ≤ | |≤ ,
pred c1 ∥∇f (xk )∥ min{∆k , ∥∇fβ(xk ) }
c0
provando o lema para c = c1
.

TEOREMA Suponha que sejam satisfeitas as Hipóteses H1-H5. Então

lim inf ∥∇f (xk )∥ = 0.


k→∞

Demonstração

13
Vamos supor por absurdo que isto seja falso.
n Então existe ε > 0 tal que ∥∇f (xk )∥ ≥ ε
o
para todo k ∈ N . Considere ∆ = min βε , 2cε , onde β e c são as constantes do Lema
anterior. Se ∆k ≤ ∆, então

ε ∥∇f (xk )∥
∆k ≤ ≤
β β
e
ε
∆k ≤
2c
Pelo lema,
c∆k 1
|ρk − 1| ≤ ≤ .
ε 2
1 1
Assim, ρk ≥ 2 > 4 e pelo Algoritmo temos ∆k+1 ≥ ∆k . Isto significa que o raio é reduzido
somente se ∆k > ∆, caso em que ∆k+1 = ∆2k > ∆2 . Podemos então concluir que


∆k ≥ min{∆0 , }
2
para todo k ∈ N . Considere o conjunto
1
K = {k ∈ N | ρk ≥ }.
4
Dado k ∈ N , pelo mecanismo do algoritmo e pela segunda hipótese H2 temos
1 1 ϵ
f (xk ) − f (xk+1 ) = f (xk ) − f (xk + dk ) ≥ (mk (0) − mk (dk )) ≥ c1 ϵ min{∆k , }
4 4 β
temos que existe uma constante δ > 0 tal que

f (xk ) − f (xk+1 ) ≥ δ,

para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, pela hipótese
H4, limitada inferiormente, donde segue que f (xk ) − f (xk+1 ) → 0. Portanto, podemos
concluir que o conjunto K é finito. Assim, ρk < 41 , para todo k ∈ N suficientemente
grande e então ∆k será reduzido à metade em cada iteração. Isto implica ∆k → 0, o que
contradiz. Deste modo, a afirmação no teorema é verdadeira.

TEOREMA Suponha que sejam sastifeitas todas as hipóteses. Então

∇f (xk ) → 0.

Demonstração

Suponha por absurdo que, para algum ε > 0, o conjunto

K = {k ∈ N | ∥∇f (xk )∥ ≥ ε}

seja infinito. Dado k ∈ K, considere o primeiro índice lk > k tal que ∥∇f (xlk )∥ ≤ 2ε .
A existência de lk é assegurada pelo Teorema anterior. Como ∇f é Lipschitz, temos
ε
≤ ∥k∇f (xk ) − ∇f (xlk )∥ ≤ L∥xk − xlk ∥,
2
14
para alguma constante L > 0. Portanto,
ε
≤ ∥xk − xlk ∥ ≤ ∥xj − xj+1 ∥ ≤
X X
γ∆j ,
2L j∈Sk j∈Sk

onde Sk = {j ∈ N | k ≤ j < lk e xj+1 ̸= xj }. Pelo mecanismo do Algoritmo, Hipótese H2


e definição de lk , temos
ϵ
f (xk )−f (xlk ) = (f (xj )−f (xj+1 )) ≥ η(mj (xj )−mj (xj+1 )) ≥
X X X
ηc1 ϵ min{∆j , }.
j∈Sk j∈Sk j∈Sk β

ηc1 ϵ2 ηc1 ϵ2
n o
Definindo δ̃ = min 2·2γL
, β , obtemos

f (xk ) − f (xlk ) ≥ δ̃

para todo k ∈ K. Por outro lado, a sequência (f (xk )) é não crescente e, por H4, limitada
inferiormente, donde segue que f (xk )−f (xk+1 ) → 0, contradizendo a desigualdade. Deste
modo, a afirmação no teorema é verdadeira.

15

Você também pode gostar