Você está na página 1de 8

EXTENSÃO DO MÉTODO BO PARA SISTEMAS AFINS NA ENTRADA COM

APLICAÇÃO NO CONTROLE DE TRAJETÓRIAS DE UM QUADROTOR


(PROVISÓRIO)

João C. V. de Castro,∗ Luis A. Aguirre∗



Programa de Pós-Graduação em Engenharia Elétrica, Universidade Federal de Minas Gerias (UFMG)
Av. Antônio Carlos, 6627 - 31270-901, Belo Horizonte, Minas Gerais, Brasil

Emails: jcvilela@ufop.edu.br, aguirre@ufmg.br

Abstract— O processo de revisao do CBA 2014 sera DOUBLE BLIND, portanto NAO inclua autores na
versão que será submetida para revisão. Leve isso em consideração ao citar seus próprios trabalhos.
Keywords— Template, Example.

Resumo— O processo de revisão do CBA 2014 será DOUBLE BLIND, portanto NÃO inclua autores na versão
que será submetida para revisão. Leve isso em consideração ao citar seus próprios trabalhos.

Palavras-chave— Exemplo, Ilustração.

1 Introdução fundindo otimização ao procedimento backstep-


Mudar o tı́- ping. O controle ótimo é normalmente alcançado
tulo para a partir da solução de equações do tipo Hamilton-
Introdução?
Projetos de controladores não lineares, dife-
rentemente do caso linear, não possuem metodo- Jacobi-Bellman (HJB) correspondente ao sistema
logias bem definidas que sejam gerais, ou seja, que (Kirk, 2004). Porém a solução direta de equações
sirvam para aplicação em qualquer tipo de sis- de HJB pode ser muito difı́cil ou até mesmo im-
tema. Uma das abordagens mais generalistas para praticável, devido a intratabilidades ou não line-
análise de estabilidade para estes sistemas é o mé- aridades inerentes. Para resolver esse problema,
todo de Lyapunov e suas extensões (Khalil, 2002). a técnica OB faz uso de uma solução ótima apro-
Na maioria das vezes cada caso deve ser tratado ximada por redes neurais (RN) para as equações
separadamente, ou pelo menos por classes. Neste de HJB, a partir de uma estratégia de aprendi-
Colocar refe- contexto, o método backstepping, que se baseia na zado por reforço (RL - do inglês Reinforcement
rência para análise de estabilidade de Lyapunov, tem se mos- Learning) utilizando estrutura ator/crı́tico. Dessa Colocar re-
o backstep- forma o problema do cálculo da solução das equa- ferencias
ping, Khalil,
trado uma das ferramentas mais poderosas e po- aqui. Sut-
pulares para controle de sistemas não lineares que ções de HJB é contornado. Extensões da técnica ton e Barto?
Slotine, En-
ciclpédia de podem ser representados por estruturas especı́fi- OB já são encontradas na literatura, como por
Automática, cas, do tipo triangular inferior ou strict-feedback. exemplo, em casos onde saturação no sinal de con-
Petrus?
O princı́pio básico desta metodologia é tratar de- trole é considerado no projeto (Bai et al., 2019)
terminadas variáveis de estado como sinais de con- ou uma versão adaptativa do método é utilizada
trole virtuais e assim, projetar sistematicamente (Wen et al., 2019). melhorar
isso aqui.
essas leis de controle virtuais, de acordo com o
Este trabalho apresenta uma adaptação do
método de Lyapunov, para cada subsistema até o
método OB, estendendo sua aplicação a uma
último, onde a lei de controle real é obtida recur-
classe de sistemas menos restrita do que a con-
sivamente.
templada pelo método OB original. Como exem-
Um problema na técnica tradicrional do plo de aplicação a extensão do método é aplicada
backstepping é que o controlador final garante es- no controle de seguimento de trajetórias de um
tabilidade, porém o desempenho fica a mercê de quadrotor utilizando uma metodologia similar a
parâmetros que muitas vezes são ajustados via adotada em Raffo et al. (2008).
tentativa e erro. Problemas como minimização
do gasto de energia não são levados em conta.
Projetos de controladores ótimos, por sua vez,
propõem-se a encontrar uma lei de controle que
garanta estabilidade e ao mesmo tempo minimize
Referência alguma função de custo (Kirk, 2004). Visando ob-
aqui... Kirk? ter um controlador com as caracterı́sticas do pro- 2 Contribuição deste artigo
mais?
jeto backstepping, mas que leve em conta a otimi-
zação em respeito a uma função de custo no cál-
culo do controlador, Wen et al. (2018) propuseram O método backstepping pode ser aplicado direta-
uma nova técnica, batizada de backstepping oti- mente a sistemas representáveis por modelos com
mizado (OB - do inglês Optimized Backstepping), estrutura na forma triangular inferior, ou de rea-
limentação estrita, dada por −ag(t)+c é satisfeito, sendo a e c duas constantes
positivas, então pode-se concluir que
ẋ1 (t) = f1 (x̄1 ) + g1 (x̄1 )x2 (t) c
g(t) ≤ e−at g(0) + (1 − e−at ).
ẋ2 (t) = f2 (x̄2 ) + g2 (x̄2 )x3 (t) a
.. A prova para o Lema 1 é dada em Ge and Wang
.
(2004).
ẋn (t) = fn (x̄n ) + gn (x̄n )u(t), (1)
3.1 O método Backstepping
sendo x1 (t) ∈ R o sinal de saı́da do sistema,
u(t) ∈ R o sinal de controle, x̄i = x̄i (t) = O método backstepping é um procedimento recur-
[x1 (t), . . . , xi (t)]T ∈ Ri o vetor de estados, sivo que se baseia no uso de funções de Lyapunov
fi (x̄i ) ∈ R com f (0̄i ) = 0 uma função contı́- para projetar controladores por realimentação de
nua conhecida e limitada, e fi (x̄i (t)) + xi+1 , i = estados. O projeto do controlador é dividido em
1, . . . , n − 1 e fn (x̄n ) + u(t) funções Lipschitz diversos subproblemas de projeto, de ordem me-
contı́nuas e estabilizáveis em conjuntos contendo nor que o original (Aguirre et al., 2007). Para
a origem (Khalil, 2002). Assume-se ainda que aplicação do método o modelo do sistema deve ser
confirmar gi (x̄i ) 6= 0, ∀x̄i ∈ Ri . representado na forma triangular inferior apresen-
isso aqui. Já o método OB, apresentado por Wen et al. tada em (1) e um procedimento recursivo pode ser
Colocar p/
(2018) como uma extensão do método backstep- realizado como na sequência.
i=1,...,n?
ping para lidar com otimização durante o projeto A partir de uma transformação de coordena-
do controlador, é aplicável diretamente a sistemas das zi = xi − vi−1 (z̄i−1 ), com i = 1, 2, . . . , n,
que podem ser representados em uma forma par- z̄i = [z1 , . . . , zi ]T e v0 (z̄i ) = yr (t), sendo yr (t) o
ticular da apresentada em (1), ainda mais restrita sinal de referência e vi , sinais de controle virtuais Pode não ser
que esta última, expressa por dados por leis de controle estabilizantes via reali- constante?
Creio que
mentação de estados tal que as funções de Lyapu- sim. Con-
ẋ1 (t) = f1 (x̄1 ) + x2 (t) nov Vi (z̄1 ) = Vi−1 (z̄1 ) + (1/2)zi2 , com i = 1, . . . , n firmar isso.
ẋ2 (t) = f2 (x̄2 ) + x3 (t) e V0 (z̄1 ) = 0, satisfaçam Mas deve-se
ter que ẏr
... ∂Vi h i
seja suave.
fi (z̄i ) + gi (z̄i )vi (z̄i ) ≤ −Wi (z̄i ) (3)
ẋn (t) = fn (x̄n ) + u(t), (2) ∂ z̄i
com Wi (z̄i ) > 0.
em que fi (x̄i ) obedecem às mesmas condições Quando a condição (3) é satisfeita, a estabili-
colocar so- apresentadas em (1). dade assintótica, para o caso autônomo, é garan-
mente esta Neste trabalho, uma extensão do método OB
sentença é tida, o que implica na relação
suficiente, ou
é apresentada, de forma que esse possa ser apli-
precisa ser cado a sistemas afins no sinal de entrada, repre- lim xi (t) = lim vi−1 (z̄i (t)) (4)
t→∞ t→∞
mais formal, sentáveis pelo modelo (1), que é um pouco mais
como fiz geral que (2), considerado em Wen et al. (2018). Com isso, xi , i = 2, 3, . . . , n − 1 converge para o
após apre- sinal gerado pela lei de controle estabilizante, e
sentar (1)? x1 (t) converge para yr .
3 Fundamentos Conceituais A condição (3) pode ser alcançada escolhendo,
como leis de controle virtuais, colocar aqui
Nesta seção, definições necessárias para o desen- (footnote?)
volvimento do método OB são apresentadas de 1 h que esta não
vi (z̄i ) = − fi (z̄i ) + v̇i−1 (z̄n ) − ki zi é a única
forma sucinta. gi (x̄i )
i forma de se
− zi−1 gi−1 (x̄i−1 ) , (5) proceder?
Definição 1 Sistema Semi-globalmente Unifor-
Colocar de- memente Limitado – SGUUB com z0 (t) = g0 (x̄0 ) = x̄0 = 0.
finicao de Considere o sistema não-linear A lei de controle final, u(t), é dada para o
SGUUB em
caso em que i = n, ou seja, u(x̄n ) = vn (z̄n ), que
inglês?
ẋ = f (x, t) é obtida a partir da aplicação recursiva das n − 1
leis de controle virtuais projetadas anteriormente.
em que x(t) ∈ Rn é o vetor de estado. Sua solução Note que a adoção das leis de controle (5) im-
é dita ser Semi-Globalmente Uniformemente Ulti- plica em
mamente Limitada (SGUUB) se, para x(0) ∈ Ωx ,
em que Ωx ∈ Rn é um conjunto compacto, existem V̇n = −k1 z12 − k2 z22 − · · · − kn zn2 < 0.
duas constantes α e T (α, x(0)), tal que ||x(t)|| ≤ α Ou seja, V̇n é definida negativa, o que está de
é satisfeito para todo t > t0 + T (α, s(0)). acordo com (3) e garante estabilidade assintótica
para o ponto de equilı́brio ze = (z1 , z2 , . . . , zn ) =
Lema 1 Seja g(t) ∈ R uma função contı́nua po- (0, 0, . . . , 0), implicando em para x1 (t) = z1 (t) +
sitiva com valor inicial limitado g(0). Se ġ(t) ≤ yr (t) = yr (t).
3.2 Aprendizado por Reforço (2018), o método é aplicável a sistemas com uma
forma particular pertencente a classe dos sistemas
Aprendizado por reforço, ou RL (do inglês Rein-
estritamente realimentados, como apresentado em
forcement Learning) refere-se a uma classe de mé-
(2). Nessa estratégia, os controladores virtuais e
todos que possibilita o projeto de controladores
reais do método backstepping são projetados para
adaptativos que aprendem online, em tempo real,
serem a solução otimizada para cada subsistema,
soluções para problemas de controle ótimo onde
pelo uso de um algoritmo de aprendizado refor-
funções de custo são definidas pelo projetista.
çado baseado na arquitetura ator/crı́tico, onde
Baseia-se na relação causa e efeito entre ações e re-
tanto a estrutura do ator quanto a do crı́tico são
compensas ou punições (Lewis et al., 2012). Uma
representadas por redes neurais. O ator é respon-
das arquiteturas mais utilizadas para implementa-
sável por executar a polı́tica de controle enquanto
ção de algoritmos RL é a arquitetura ator/crı́tica,
o crı́tico avalia o desempenho da otimização. No
na qual o ator realiza certas ações interagindo com
presente trabalho uma modificação no método OB
o ambiente e o crı́tico avalia as ações dando um re-
é introduzida, permitindo sua aplicação a uma
torno ao ator, levando à melhoria no desempenho
classe de modelos um pouco mais geral, ainda na
das ações subsequentes (Sutton and Barto, 2018).
forma de realimentação estrita, como apresentada
O ator e o crı́tico são ajustados em tempo real a
em (1). Por um procedimento simular ao usado
partir de dados observados. Para isto, são utiliza-
no método OB, desenvolve-se os seguintes passos.
das duas redes neurais (RN), uma fazendo o papel
do crı́tico e outra do ator. Os pesos de uma RN
são feitos constantes enquanto os pesos da outra 4.1 Passo 1
são ajustados até a convergência. Este procedi- Define-se o erro de rastreamento como z1 = x1 −
mento é repetido até que ambas as RN convirjam. yr , sendo yr a trajetória de referência . A derivada
A convergência utilizando duas RN para o caso temporal do erro, de acordo com (1), será
Colocar isso? discreto é provada em Al-Tamimi et al. (2008).
Uma vez que O presente trabalho faz uso da arquitetura ż1 = f1 (x̄1 ) + g1 (x̄1 )x2 − ẏr (8)
lido com o
caso contı́-
ator/crı́tico para a solução da equação de HJB,
onde a RN crı́tica é responsável por avaliar o de- Tratando x2 como um sinal de controle virtual
nuo? E a
convergên- sempenho da otimização equano a RN ator exe- ótimo α1∗ (z1 ) define-se a seguinte função-valor
cia para o cuta a polı́tica de controle. ótima para o subsistema (8)
caso contı́- Z ∞ 
nuo? (deixar
claro que é 3.3 Aproximação de funções por redes neurais J1∗ (z1 ) = min r1 (z1 (s), α1 (z1 ))ds
α1 ∈Ψ(Ω1 ) t
a convergên- Z ∞
cia para eq Neste trabalho são utilizadas RN com funções ra-
HJB n-linear = r1 (z1 (s), α1∗ (z1 ))ds (9)
diais de base (RBF - do inglês Radial Basis Functi- t
discreta)
ons) como as RN ator/crı́tico para o procedimento
RL, devido a sua capacidade universal de aproxi- sendo Ψ(Ω1 ) o domı́nio de polı́ticas de controle
mação de funções contı́nuas não-lineares. Para tal, admissı́veis sobre o conjunto compacto Ω1 que
define-se uma função contı́nua g(z) : Rn 7→ Rm , contém a origem, α1 (z1 ) é o controle virtual e
que é aproximada pela RN na forma r1 (z1 , α1 ) = z12 + α12 é a função de custo.
Reescrevendo J1∗ (z1 ) como
g(z) = W ∗T S(z) + ε, ∀z ∈ Ωz (6)
J1∗ (z1 ) = J1∗ (z1 ) − β1 z12 + β1 z12
T n
onde z = [z1 , z2 , . . . , zn ] ∈ Ωz ⊂ R é o vetor = J10 (z1 ) + β1 z12 (10)
de entrada, W ∗ ∈ Rp×m é uma matriz de pesos
ideais, sendo p o número de neurônios, ε(z) ∈ Rm tem-se J ∗ (z1 ) escrita em função de dois termos,
é o erro de aproximação, tal que ||ε(z)|| ≤ δ e o primeiro, J10 ∈ R é uma função-valor contı́nua
S(z) = [s1 (z), s2 (z), . . . , sp (z)]T é o vetor da RBF escalar e o segundo, β1 z12 visa alcançar o rastre-
com si (z), para i = 1, 2, . . . , p, dado por funções amento com desempenho desejado para o subsis-
gaussianas, da seguinte forma tema, a partir da escolha de β1 , que deve ser uma
constante de projeto positiva. variável?
(z − µi )T (z − µi )
 
si (z) = exp − , (7) Afim de obter a lei de controle ótima para o
σi2 subsistema, constrói-se a seguinte equação de HJB
sendo µi = [µi1 , µi2 , . . . , µin ] os centros das RBFs (Kirk, 2004) a partir da dinâmica do erro (8)
espalhamentos? e σi os espalhamentos das funções Gaussianas. 
∂J ∗

∂J ∗
desvio padrão?
H1 z1 , α1∗ , 1 = r1 (z1 , α1∗ ) + 1 ż1
∂z1 ∂z1
4 Extensão do método OB
∂J 0
 
2
Esta seção = z12 + α1∗ (z1 ) + 2β1 z1 + 1
não está na Esta seção apresenta uma extensão do método ∂z1
versão final.
A versão
backstepping otimizado (OB - Optimized Backs- × [f1 + g1 (x̄1 )α1∗ (z1 ) − ẏr ] = 0
final será tepping). Proposto originalmente por Wen et al. (11)
bem mais
enxuta.
A lei de controle ótima α1∗ é encontrada fazendo-se
∂H1 /∂α1∗ = 0, que resulta em  2
  1 T
H1 z1 , α1∗ , Ŵc1 = z12+ −β1 g1 z1 − Ŵa1 S1
1 ∂J 0 2
α1∗ (z1 ) = −β1 g1 (x̄1 )z1 − g1 (x̄1 ) 1 (12) h ih
2 ∂z1 + 2β1 z1 + ŴcT1 S1 f1 − ẏr
A lei de controle (12) em geral é difı́cil solução de- 1 i
− β1 g12 z1 − g12 ŴaT1 S1 .
vido a fortes não linearidades, portanto utiliza-se 2
aprendizado reforçado por meio de redes neurais e (19)
arquitetura ator/crı́tico para aproximação da so-
lução ótima. Neste sentido ∂J10 /∂z1 é escrita como Pela equação de HJB (16) e sua aproximação
uma RN da forma (19), calcula-se o erro residual de Bellman como
 
∂J10 e1 (t) = H1 z1 , α1∗ , Ŵc1 − H1 (z1 , α1∗ , W1∗ )
= W1∗T S1 (z1 ) + ε1 (z1 ) (13)
∂z1  
= H1 z1 , α1∗ , Ŵc1 . (20)
sendo W1∗ ∈ Rn1 o vetor de pesos ideal na RN,
n1 o número de neurônios; S1 (z1 ) ∈ Rn1 é o ve- A partir de uma função definida positiva do
tor de funções gaussianas; e ε1 ∈ R é o erro de erro e1 (t),
aproximação, que é limitado. 1
E1 (t) = e21 (t), (21)
A partir de (13) e da derivada parcial de (10) 2
em relação a z1 no intuito de minimizar o erro de Bellman (20),
define-se a seguinte equação de atualização da RN
∂J1∗ crı́tica, baseando-se no método do gradiente des-
= W1∗T S1 (z1 ) + 2β1 z1 + ε1 (z1 ) (14)
∂z1 cendente:
A lei de controle ótima pode ser rescrita, de (13)
em (12) como ˙ γc1 ∂E1
Ŵc1 = − 2
||ω1 || + 1 ∂ Ŵc1
1
α1∗ (z1 ) = −β1 g1 (x̄1 )z1 − g1 (x̄1 ) W1∗T S1 (z1 ) + ε1
 
γc1
2 = − ω1 ω1T Ŵc1 − (β12 g12 − 1)z12
(15) ||ω1 ||2 + 1
Substituindo (14) e (15) na equação de HJB (11)  g2 T

tem-se + 2β1 z1 f1 − ẏr + 1 Ŵa1 S̄1 Ŵa1 (22)
4
H1 (z1 , α1∗ , W1∗ ) = Sendo ω1 ∈ Rn1 dado por
− (β12 g12 (x̄1 ) − 1)z12 + 2β1 z1 [f1 − ẏr ]
h i
ω1 = S1 f1 − β1 g12 z1 − (1/2)g12 Ŵa1
T
S1 − ẏr
+ W1∗T S1 (z1 ) f1 − β1 g12 (x̄1 )z1 − ẏr
 

1 A RN ator é projetada como


− W1∗T S1 (z1 )S1T (z1 )W1∗ +  = 0, (16)
4 ˙ 1
Ŵa1 = g12 z1 S1 − γa1 S̄1 Ŵa1
corrigir 1 com 1 = ε(z1 )[f1 +α1∗ − ẏr ]+(1/4)ε21 (z1 ) limitado, 2
γc1
uma vez que todos os seus termos são limitados. + g 2 S̄1 Ŵa1 ω1T Ŵc1 , (23)
4(||ω1 ||2 + 1) 1
Como o vetor ótimo W1∗ é desconhecido este é es-
timado a partir de aproximações por RN ator e de modo que a função candidata de Lyapunov a
crı́tico de acordo com as equações (17) e (18) a ser definida em (25) tenha sua derivada temporal
seguir. tal que o ponto de equilı́brio para a dinâmica dos
erros seja SGUUB, de acordo com o procedimento
adotado na sequência.
∂ Jˆ1∗ T O erro do sinal de controle virtual para z2 é
= 2β1 z1 + Ŵc1 S1 (z1 ) (17)
∂z1 definido como z2 = x2 − α̂1 . Isolando x2 e substi-
1 tuindo em (8), tem-se
α̂1 = −β1 g1 (x̄1 )z1 − g1 (x̄1 )ŴaT1 S1 (z1 ) (18)
2
ż1 = f1 + g1 (z2 + α̂1 ) − ẏr (24)
sendo Jˆ1∗ uma estimativa de J1∗ , Ŵc1 T
∈ Rn1 e
T n1 modifiquei
Ŵa1 ∈ R são os pesos das RN crı́tico e ator,
Definindo a função candidata de Lyapunov aqui (24)
respectivamente. g1 não es-
Substituindo (17) e (18) em (11), suprimindo 1 2 1 T 1 T tava multi-
as dependências de x̄1 em f1 (x̄1 ) e g1 (x̄1 ), de z1 L1 = z + W̃ W̃a1 + W̃c1 W̃c1 (25) plicando o
2 1 2 a1 2
em S(z1 ) e definindo S1 S1T , S̄1 , para uma nota- α̂1 .
ção mais compacta, tem-se a seguinte aproxima- sendo W̃c1 = Ŵc1 −W1∗ e W̃a1 = Ŵa1 −W1∗ os erros
ção para a equação de HJB de estimação das RN crı́tico e ator. Derivando L1
em relação ao tempo e utilizando (22), (23), (24) sendo c1 = γc1 /(||ω1 ||2 + 1). Tem-se ainda que
e (18) resulta em T
2Ŵa1 S̄1 W1∗ − W1∗T S̄1 W1∗ − Ŵa1
T T
S̄1 Ŵa1 =
1  
L̇1 = g1 z1 z2 − β1 g12 z12 − g12 z1 Ŵa1
T T
− W̃a1 S1 W1∗T S̄1 W̃a1 − W̃a1
T
S̄1 Ŵa1 ,
2
T T
− γa1 W̃a1 S̄1 Ŵa1 + a1 − b1 + z1 [f1 − ẏr ] (26)
T c1 h T i
c1 Ŵc1 ω1 1 ≤ W̃c1 ω1 ω1T W̃c1 + 21
sendo os termos 2
γc1 c1 T γc1 2
a1 = g 2 W̃ T S̄1 Ŵa1 ω1T Ŵc1 (27) ≤ W̃c1 ω1 ω1T W̃c1 +  ,
4(||ω1 ||2 + 1) 1 a1 2 2 1
γc1 T
h
Usando estas relações em (33) obtém-se
b1 = Ŵ c1 ω 1 ω1T Ŵc1 − (β12 g12 − 1)z12
(||ω1 ||2 + 1)  
1 1 13 γa1 T
L̇1 ≤ g12 z22 − β1 g12 − z12 −
i
+ 2β1 z1 (f1 − ẏr ) + g12 Ŵa1 T T
S̄1 Ŵa1 (28) W̃a1 S̄1 W̃a1
4 2 8 2
γa1 T c1
Como W̃a1 = Ŵa1 − W1∗ tem-se que − Ŵa1 S̄1 Ŵa1 + a1 − g12 W̃c1 T T
ω1 W̃a1 S̄1 Ŵa1
2 4
T
Ŵa1 − W̃a1T
= W1∗T c1 2 T c 1
+ g1 W̃c1 ω1 W1∗T S̄1 W̃a1 − W̃c1 T
ω1 ω1T W̃c1
T γa1 h T T
4 2
γa1 W̃a1 S̄1 Ŵa1 = W̃a1 S̄1 W̃a1 + Ŵa1 S̄1 Ŵa1 γc1 2 1 h 2 i
2 +  + f1 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 ,
i 2 2
− W1∗T S̄1 W1∗ (34)
Substituindo estes resultados em (26) Substituindo a relação a seguir
1 γa1 c1 2 T
L̇1 = g12 z1 z2 − β1 g12 z12 − g12 z1 W1∗T S1 − a1 − T
g W̃ ω1 W̃a1 S̄1 Ŵa1
2 2 4 1 c1
c1 2 T
h i
T
× W̃a1 T
S̄1 W̃a1 + Ŵa1 S̄1 Ŵa1 − W1∗T S̄1 W1∗ = g1 W̃a1 S1 W1∗T ω1 S1T Ŵa1 ,
4
+ a1 − b1 + z1 f1 + z1 ẏr (29)
em (34), resulta em
Pela desigualdade de Young, xy ≤ x2 /2 + y 2 /2,  
tem-se que 1 13 γa1 T
L̇1 ≤ g12 z22 − β1 g12 − z12 − W̃a1 S̄1 W̃a1
1 2 8 2
g1 z1 z2 ≤ (z12 + g12 z22 ) γa1 T c1
2 − Ŵa1 S̄1 Ŵa1 + g12 W̃a1 T
S1 W1∗T ω1 S1T Ŵa1
1 2 2 4
z1 f1 ≤ (z1 + f12 ) c1 c1 T
2 + g12 W̃c1T
ω1 W1∗T S̄1 W̃a1 − W̃c1 ω1 ω1T W̃c1
4 2
1 2 γc1 2 1 h 2
−z1 ẏr ≤ (z1 + ẏr2 )
i
2 +  + f1 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 ,
2 2
1 2 1 2 1 4 (35)
− g1 z1 W1 S1 ≤ z1 + g1 (W1∗T S1 )2 . (30)
∗T
2 8 2
Aplicando estas desigualdades em (29) Utilizando desigualdades de Young, conclui-se que
c1 T γ2
 
1 2 2 2 13 γa1 T W̃a1 S1 W1∗T ω1 S1T Ŵa1 ≤ c1 Ŵa1 T
L̇1 ≤ g1 z2 − β1 g1 − z12 − W̃a1 S̄1 W̃a1 4 2
S̄1 Ŵa1
2 8 2
γa1 T 1 T
− Ŵa1 S̄1 Ŵa1 + a1 − b1 + W̃a1 S1 W1∗T ω1 ω1T W1∗ S1T W̃a1
2 32
1 h i c1 2 T γ2
+ f12 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 . (31) g1 W̃c1 ω1 W1∗T S̄1 W̃a1 ≤ c1 g14 W̃a1T
S̄1 W̃a1
2 4 2
A partir de (16), tira-se a relação 1
+ W̃ T ω1 W1∗T S̄1 W1T ω1T W̃c1 .
32(||ω1 ||2 + 1) c1
−(β12 g12 − 1)z12 + 2β1 z1 [f1 − ẏr ] =
1 1 Inserindo estes resultados na equação (35) e fa-
− ω1T W1∗ − g12 Ŵa1 T
S̄1 W1∗ + g12 W1∗T S̄1 W1∗ − 1 zendo algumas manipulações, levando em conta
2 4
(32) que L é um valor escalar, resulta em
γ2  T
 
Substituindo em (28), (31) se torna 1 2 2 13 γ
a1
L̇1 ≤ g1 z2 − β1 g1 − 2
z12 − − c1 Ŵa1 S̄1 Ŵa1
1 2 2

13

γa1 T 2 8 2 2
2
L̇1 ≤ g1 z2 − β1 g1 − z12 − W̃a1 S̄1 W̃a1
2 8 2

a1 γ2 1 
− − c1 g14 − W1∗T ω1 ω1T W1∗ W̃a1 T
S̄1 W̃a1
γa1 T T
h 2 2 32
− Ŵa1 S̄1 Ŵa1 + a1 − c1 W̃c1 ω1 ω1T W̃c1T
− 1 γ 1 
2 − c1
c1
− W1∗T S̄1 W1∗ W̃c1 T
ω1 ω1T W̃c1
1  i 2 32
− g12 2Ŵa1T
S̄1 W1∗ − W1∗T S̄1 W1∗ − Ŵa1T T
S̄1 Ŵa1 1h i
4 + f12 + ẏr2 + (γa1 + g14 )(W1∗T S1 )2 + γc1 21 .
1h 2 i 2
+ f1 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 , (33) (36)
2
A derivada da função candidata de Lyapunov 4.2 Passos i, com i = 2, . . . , n
L̇1 (t), dada por (36) pode ser escrita na seguinte
Para os passos seguintes adotam-se, basicamente, os
forma compacta mesmos procedimentos utilizados no passo 1, conside-
rando porém, algumas modificações. Ainda tenho que
γ 2 
a1 γc1 colocar isso aqui.
L̇1 ≤ −ξ1T A1 ξ1 − − T
Ŵa1 S̄1 Ŵa1 Falta colocar também a prova de estabilidade final.
2 2
Vou ter que fazer um pouco de mágica para caber.
g2
+ C1 + 1 z22 . (37) Mas vai dar.
2
Sendo: 5 Conclusões
T T
 T

ξ1 = z1 W̃a1 W̃c1 Listar conclusões nesta seção.
1h i
C1 = f12 + ẏr2 + (γa1 + g14 )(W1∗T S1 )2 + γc1 21
2
Agradecimentos
β1 g12 − 13
 
8 0 0
A1 =  0 a22 0  Agradecer.
0 0 a33

com Referências
2

a1 γc1 g4 
Aguirre, L. A., Bruciapaglia, A. H., Miyagi, P. E.
a22 = − g14 − 1 W1∗T ω1 ω1T W1∗ S̄1
2 2 32 and Piqueira, J. R. C. (2007). Enciclopédia
γ 1 ∗T 
a33 = c1
c1
− W1 S̄1 W1∗ ω1 ω1T (38) de automática: controle e automação, Blu-
2 32 cher, São Paulo. OCLC: 246910304.
Para que a matriz A1 possa ser feita positiva Al-Tamimi, A., Lewis, F. and Abu-Khalaf, M.
definida, uma condição necessária é que ω1 ω1T seja (2008). Discrete-Time Nonlinear HJB Solu-
persistentemente excitante, com isso, assume-se a tion Using Approximate Dynamic Program-
seguinte hipótese: ming: Convergence Proof, IEEE Transacti-
ons on Systems, Man, and Cybernetics, Part
Hipótese 1 (Persistência de Excitação) B (Cybernetics) 38(4): 943–949.
Os sinais ωi , com i = 1, 2, . . . , n, satisfazem a
seguinte condição de persistência de excitação Bai, Y., Cao, Y. and Li, T. (2019). Optimi-
(PE) sobre o intervalo [t, t + T ]: zed Backstepping Design for Ship Course fol-
lowing Control Based on Actor-Critic Archi-
Z t+T tecture with Input Saturation, IEEE Access
ηi Ini ≤ ωi (τ )ωiT (τ )dτ ≤ ζi Ini 7: 73516–73528.
t

Ainda falta sendo ηi > 0, ζi > 0, T > 0, e Ini ∈ Rni ×ni Ge, S. S. and Wang, C. (2004). Adaptive
olhar a ques- a matriz de identidade (Vamvoudakis and Lewis, neural control of uncertain MIMO nonli-
tão das nor-
2010). near systems, IEEE Transactions on Neural
mas. A prin- Networks 15(3): 674–692.
cı́pio acho
que deveria Além de satisfazer a Hipótese 1, as as seguin-
Khalil, H. K. (2002). Nonlinear Systems, 3rd ed
tê-las. tes condições também devem ser satisfeitas, como
edn, Prentice Hall, Upper Saddle River, N.J.
condição suficiente para que A1 seja definida po-
Tenho que sitiva: Kirk, D. E. (2004). Optimal Control Theory:
trabalhar
mais nessas 13

ζ2 ∗T ∗
 An Introduction, Dover Publications, Mine-
2
condições. β1 > , γa1 > γc1 + W1 W1 ζ3 ola, N.Y.
Pelo jeito,
8ζ1 16
pelo menos 1 Lewis, F. L., Vrabie, D. and Vamvoudakis, K. G.
sup W1∗T S̄1 W1∗

o β1 terá γc1 ≥ (39)
16 t≥0 (2012). Reinforcement learning and feed-
que ficar em
função de back control: Using natural decision methods
g1 (x̄1 ). A em que ζ1 = inf t≥0 {g12 (x̄1 )}, ζ2 = supt≥0 {ω1 ω1T } to design optimal adaptive controllers, IEEE
princı́pio isso e ζ3 = supt≥0 {g14 (x̄1 )}. Control Systems Magazine 32(6): 76–105.
não parece
“muito” pro-
Com isso a desigualdade (37) pode ser rescrita
blema. como Raffo, G. V., Ortega, M. G. and Rubio,
F. R. (2008). Backstepping/nonlinear
L̇1 ≤ −ā1 ||ξ1 ||2 + c̄1 + g12 z22 (40) $\mathcal{H} \infty$ control for path trac-
king of a quadrotor unmanned aerial vehicle,
sendo ā1 = inf t≥0 {λmin {A1 (t)}}, c̄1 = Proceedings of the American Control Confe-
supt≥0 {C1 (t)} e λmin {·} o mı́nimo autovalor. rence pp. 3356–3361.
Sutton, R. S. and Barto, A. G. (2018). Reinfor-
cement Learning: An Introduction, Adaptive
Computation and Machine Learning Series,
second edition edn, The MIT Press, Cam-
bridge, Massachusetts.

Vamvoudakis, K. G. and Lewis, F. L. (2010).


Online actor–critic algorithm to solve the
continuous-time infinite horizon optimal con-
trol problem, Automatica 46(5): 878–888.

Wen, G., Ge, S. S., Chen, C. L., Tu, F. and Wang,


S. (2019). Adaptive tracking control of sur-
face vessel using optimized backstepping te-
chnique, IEEE Transactions on Cybernetics
49(9): 3420–3431.

Wen, G., Ge, S. S. and Tu, F. (2018). Opti-


mized Backstepping for Tracking Control of
Strict-Feedback Systems, IEEE Transactions
on Neural Networks and Learning Systems
29(8): 3850–3862.
Todo list

o Mudar o tı́tulo para Introdução? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


o Colocar referência para o backstepping, Khalil, Slotine, Enciclpédia de Automática, Petrus? . . 1
o Referência aqui... Kirk? mais? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
o Colocar referencias aqui. Sutton e Barto? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
o melhorar isso aqui. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
o confirmar isso aqui. Colocar p/ i=1,...,n? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
o colocar somente esta sentença é suficiente, ou precisa ser mais formal, como fiz após apresentar
(1)? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
o Colocar definicao de SGUUB em inglês? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
o Pode não ser constante? Creio que sim. Confirmar isso. Mas deve-se ter que ẏr seja suave. . . 2
o colocar aqui (footnote?) que esta não é a única forma de se proceder? . . . . . . . . . . . . . . 2
o Colocar isso? Uma vez que lido com o caso contı́nuo? E a convergência para o caso contı́nuo?
(deixar claro que é a convergência para eq HJB n-linear discreta) . . . . . . . . . . . . . . . . 3
o espalhamentos? desvio padrão? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
o Esta seção não está na versão final. A versão final será bem mais enxuta. . . . . . . . . . . . . 3
o variável? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
o corrigir 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
o modifiquei aqui (24) g1 não estava multiplicando o α̂1 . . . . . . . . . . . . . . . . . . . . . . . . 4
o Ainda falta olhar a questão das normas. A princı́pio acho que deveria tê-las. . . . . . . . . . . . 6
o Tenho que trabalhar mais nessas condições. Pelo jeito, pelo menos o β1 terá que ficar em função
de g1 (x̄1 ). A princı́pio isso não parece “muito” problema. . . . . . . . . . . . . . . . . . . . . . 6
o Para os passos seguintes adotam-se, basicamente, os mesmos procedimentos utilizados no passo
1, considerando porém, algumas modificações. Ainda tenho que colocar isso aqui.
Falta colocar também a prova de estabilidade final. Vou ter que fazer um pouco de mágica
para caber. Mas vai dar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Você também pode gostar