Cba PDF

EXTENSÃO DO MÉTODO BO PARA SISTEMAS AFINS NA ENTRADA COM
APLICAÇÃO NO CONTROLE DE TRAJETÓRIAS DE UM QUADROTOR

(PROVISÓRIO)
João C. V. de Castro,∗ Luis A. Aguirre∗

∗
Programa de Pós-Graduação em Engenharia Elétrica, Universidade Federal de Minas Gerias (UFMG)
Av. Antônio Carlos, 6627 - 31270-901, Belo Horizonte, Minas Gerais, Brasil
Emails: jcvilela@ufop.edu.br, aguirre@ufmg.br
Abstract— O processo de revisao do CBA 2014 sera DOUBLE BLIND, portanto NAO inclua autores na
versão que será submetida para revisão. Leve isso em consideração ao citar seus próprios trabalhos.
Keywords— Template, Example.
Resumo— O processo de revisão do CBA 2014 será DOUBLE BLIND, portanto NÃO inclua autores na versão
que será submetida para revisão. Leve isso em consideração ao citar seus próprios trabalhos.
Palavras-chave— Exemplo, Ilustração.
1 Introdução fundindo otimização ao procedimento backstep-

Mudar o tı́- ping. O controle ótimo é normalmente alcançado
tulo para a partir da solução de equações do tipo Hamilton-
Introdução?
Projetos de controladores não lineares, dife-
rentemente do caso linear, não possuem metodo- Jacobi-Bellman (HJB) correspondente ao sistema
logias bem definidas que sejam gerais, ou seja, que (Kirk, 2004). Porém a solução direta de equações
sirvam para aplicação em qualquer tipo de sis- de HJB pode ser muito difı́cil ou até mesmo im-
tema. Uma das abordagens mais generalistas para praticável, devido a intratabilidades ou não line-
análise de estabilidade para estes sistemas é o mé- aridades inerentes. Para resolver esse problema,
todo de Lyapunov e suas extensões (Khalil, 2002). a técnica OB faz uso de uma solução ótima apro-
Na maioria das vezes cada caso deve ser tratado ximada por redes neurais (RN) para as equações
separadamente, ou pelo menos por classes. Neste de HJB, a partir de uma estratégia de aprendi-
Colocar refe- contexto, o método backstepping, que se baseia na zado por reforço (RL - do inglês Reinforcement
rência para análise de estabilidade de Lyapunov, tem se mos- Learning) utilizando estrutura ator/crı́tico. Dessa Colocar re-
o backstep- forma o problema do cálculo da solução das equa- ferencias
ping, Khalil,
trado uma das ferramentas mais poderosas e po- aqui. Sut-
pulares para controle de sistemas não lineares que ções de HJB é contornado. Extensões da técnica ton e Barto?
Slotine, En-
ciclpédia de podem ser representados por estruturas especı́fi- OB já são encontradas na literatura, como por
Automática, cas, do tipo triangular inferior ou strict-feedback. exemplo, em casos onde saturação no sinal de con-
Petrus?
O princı́pio básico desta metodologia é tratar de- trole é considerado no projeto (Bai et al., 2019)
terminadas variáveis de estado como sinais de con- ou uma versão adaptativa do método é utilizada
trole virtuais e assim, projetar sistematicamente (Wen et al., 2019). melhorar
isso aqui.
essas leis de controle virtuais, de acordo com o
Este trabalho apresenta uma adaptação do
método de Lyapunov, para cada subsistema até o
método OB, estendendo sua aplicação a uma
último, onde a lei de controle real é obtida recur-
classe de sistemas menos restrita do que a con-
sivamente.
templada pelo método OB original. Como exem-
Um problema na técnica tradicrional do plo de aplicação a extensão do método é aplicada
backstepping é que o controlador final garante es- no controle de seguimento de trajetórias de um
tabilidade, porém o desempenho fica a mercê de quadrotor utilizando uma metodologia similar a
parâmetros que muitas vezes são ajustados via adotada em Raffo et al. (2008).
tentativa e erro. Problemas como minimização
do gasto de energia não são levados em conta.
Projetos de controladores ótimos, por sua vez,
propõem-se a encontrar uma lei de controle que
garanta estabilidade e ao mesmo tempo minimize
Referência alguma função de custo (Kirk, 2004). Visando ob-
aqui... Kirk? ter um controlador com as caracterı́sticas do pro- 2 Contribuição deste artigo
mais?
jeto backstepping, mas que leve em conta a otimi-
zação em respeito a uma função de custo no cál-
culo do controlador, Wen et al. (2018) propuseram O método backstepping pode ser aplicado direta-
uma nova técnica, batizada de backstepping oti- mente a sistemas representáveis por modelos com
mizado (OB - do inglês Optimized Backstepping), estrutura na forma triangular inferior, ou de rea-
limentação estrita, dada por −ag(t)+c é satisfeito, sendo a e c duas constantes
positivas, então pode-se concluir que
ẋ1 (t) = f1 (x̄1 ) + g1 (x̄1 )x2 (t) c
g(t) ≤ e−at g(0) + (1 − e−at ).
ẋ2 (t) = f2 (x̄2 ) + g2 (x̄2 )x3 (t) a
.. A prova para o Lema 1 é dada em Ge and Wang
.
(2004).
ẋn (t) = fn (x̄n ) + gn (x̄n )u(t), (1)
3.1 O método Backstepping
sendo x1 (t) ∈ R o sinal de saı́da do sistema,
u(t) ∈ R o sinal de controle, x̄i = x̄i (t) = O método backstepping é um procedimento recur-
[x1 (t), . . . , xi (t)]T ∈ Ri o vetor de estados, sivo que se baseia no uso de funções de Lyapunov
fi (x̄i ) ∈ R com f (0̄i ) = 0 uma função contı́- para projetar controladores por realimentação de
nua conhecida e limitada, e fi (x̄i (t)) + xi+1 , i = estados. O projeto do controlador é dividido em
1, . . . , n − 1 e fn (x̄n ) + u(t) funções Lipschitz diversos subproblemas de projeto, de ordem me-
contı́nuas e estabilizáveis em conjuntos contendo nor que o original (Aguirre et al., 2007). Para
a origem (Khalil, 2002). Assume-se ainda que aplicação do método o modelo do sistema deve ser
confirmar gi (x̄i ) 6= 0, ∀x̄i ∈ Ri . representado na forma triangular inferior apresen-
isso aqui. Já o método OB, apresentado por Wen et al. tada em (1) e um procedimento recursivo pode ser
Colocar p/
(2018) como uma extensão do método backstep- realizado como na sequência.
i=1,...,n?
ping para lidar com otimização durante o projeto A partir de uma transformação de coordena-
do controlador, é aplicável diretamente a sistemas das zi = xi − vi−1 (z̄i−1 ), com i = 1, 2, . . . , n,
que podem ser representados em uma forma par- z̄i = [z1 , . . . , zi ]T e v0 (z̄i ) = yr (t), sendo yr (t) o
ticular da apresentada em (1), ainda mais restrita sinal de referência e vi , sinais de controle virtuais Pode não ser
que esta última, expressa por dados por leis de controle estabilizantes via reali- constante?
Creio que
mentação de estados tal que as funções de Lyapu- sim. Con-
ẋ1 (t) = f1 (x̄1 ) + x2 (t) nov Vi (z̄1 ) = Vi−1 (z̄1 ) + (1/2)zi2 , com i = 1, . . . , n firmar isso.
ẋ2 (t) = f2 (x̄2 ) + x3 (t) e V0 (z̄1 ) = 0, satisfaçam Mas deve-se
ter que ẏr
... ∂Vi h i
seja suave.
fi (z̄i ) + gi (z̄i )vi (z̄i ) ≤ −Wi (z̄i ) (3)
ẋn (t) = fn (x̄n ) + u(t), (2) ∂ z̄i
com Wi (z̄i ) > 0.
em que fi (x̄i ) obedecem às mesmas condições Quando a condição (3) é satisfeita, a estabili-
colocar so- apresentadas em (1). dade assintótica, para o caso autônomo, é garan-
mente esta Neste trabalho, uma extensão do método OB
sentença é tida, o que implica na relação
suficiente, ou
é apresentada, de forma que esse possa ser apli-
precisa ser cado a sistemas afins no sinal de entrada, repre- lim xi (t) = lim vi−1 (z̄i (t)) (4)
t→∞ t→∞
mais formal, sentáveis pelo modelo (1), que é um pouco mais
como fiz geral que (2), considerado em Wen et al. (2018). Com isso, xi , i = 2, 3, . . . , n − 1 converge para o
após apre- sinal gerado pela lei de controle estabilizante, e
sentar (1)? x1 (t) converge para yr .
3 Fundamentos Conceituais A condição (3) pode ser alcançada escolhendo,
como leis de controle virtuais, colocar aqui
Nesta seção, definições necessárias para o desen- (footnote?)
volvimento do método OB são apresentadas de 1 h que esta não
vi (z̄i ) = − fi (z̄i ) + v̇i−1 (z̄n ) − ki zi é a única
forma sucinta. gi (x̄i )
i forma de se
− zi−1 gi−1 (x̄i−1 ) , (5) proceder?
Definição 1 Sistema Semi-globalmente Unifor-
Colocar de- memente Limitado – SGUUB com z0 (t) = g0 (x̄0 ) = x̄0 = 0.
finicao de Considere o sistema não-linear A lei de controle final, u(t), é dada para o
SGUUB em
caso em que i = n, ou seja, u(x̄n ) = vn (z̄n ), que
inglês?
ẋ = f (x, t) é obtida a partir da aplicação recursiva das n − 1
leis de controle virtuais projetadas anteriormente.
em que x(t) ∈ Rn é o vetor de estado. Sua solução Note que a adoção das leis de controle (5) im-
é dita ser Semi-Globalmente Uniformemente Ulti- plica em
mamente Limitada (SGUUB) se, para x(0) ∈ Ωx ,
em que Ωx ∈ Rn é um conjunto compacto, existem V̇n = −k1 z12 − k2 z22 − · · · − kn zn2 < 0.
duas constantes α e T (α, x(0)), tal que ||x(t)|| ≤ α Ou seja, V̇n é definida negativa, o que está de
é satisfeito para todo t > t0 + T (α, s(0)). acordo com (3) e garante estabilidade assintótica
para o ponto de equilı́brio ze = (z1 , z2 , . . . , zn ) =
Lema 1 Seja g(t) ∈ R uma função contı́nua po- (0, 0, . . . , 0), implicando em para x1 (t) = z1 (t) +
sitiva com valor inicial limitado g(0). Se ġ(t) ≤ yr (t) = yr (t).
3.2 Aprendizado por Reforço (2018), o método é aplicável a sistemas com uma
forma particular pertencente a classe dos sistemas
Aprendizado por reforço, ou RL (do inglês Rein-
estritamente realimentados, como apresentado em
forcement Learning) refere-se a uma classe de mé-
(2). Nessa estratégia, os controladores virtuais e
todos que possibilita o projeto de controladores
reais do método backstepping são projetados para
adaptativos que aprendem online, em tempo real,
serem a solução otimizada para cada subsistema,
soluções para problemas de controle ótimo onde
pelo uso de um algoritmo de aprendizado refor-
funções de custo são definidas pelo projetista.
çado baseado na arquitetura ator/crı́tico, onde
Baseia-se na relação causa e efeito entre ações e re-
tanto a estrutura do ator quanto a do crı́tico são
compensas ou punições (Lewis et al., 2012). Uma
representadas por redes neurais. O ator é respon-
das arquiteturas mais utilizadas para implementa-
sável por executar a polı́tica de controle enquanto
ção de algoritmos RL é a arquitetura ator/crı́tica,
o crı́tico avalia o desempenho da otimização. No
na qual o ator realiza certas ações interagindo com
presente trabalho uma modificação no método OB
o ambiente e o crı́tico avalia as ações dando um re-
é introduzida, permitindo sua aplicação a uma
torno ao ator, levando à melhoria no desempenho
classe de modelos um pouco mais geral, ainda na
das ações subsequentes (Sutton and Barto, 2018).
forma de realimentação estrita, como apresentada
O ator e o crı́tico são ajustados em tempo real a
em (1). Por um procedimento simular ao usado
partir de dados observados. Para isto, são utiliza-
no método OB, desenvolve-se os seguintes passos.
das duas redes neurais (RN), uma fazendo o papel
do crı́tico e outra do ator. Os pesos de uma RN
são feitos constantes enquanto os pesos da outra 4.1 Passo 1
são ajustados até a convergência. Este procedi- Define-se o erro de rastreamento como z1 = x1 −
mento é repetido até que ambas as RN convirjam. yr , sendo yr a trajetória de referência . A derivada
A convergência utilizando duas RN para o caso temporal do erro, de acordo com (1), será
Colocar isso? discreto é provada em Al-Tamimi et al. (2008).
Uma vez que O presente trabalho faz uso da arquitetura ż1 = f1 (x̄1 ) + g1 (x̄1 )x2 − ẏr (8)
lido com o
caso contı́-
ator/crı́tico para a solução da equação de HJB,
onde a RN crı́tica é responsável por avaliar o de- Tratando x2 como um sinal de controle virtual
nuo? E a
convergên- sempenho da otimização equano a RN ator exe- ótimo α1∗ (z1 ) define-se a seguinte função-valor
cia para o cuta a polı́tica de controle. ótima para o subsistema (8)
caso contı́- Z ∞
nuo? (deixar
claro que é 3.3 Aproximação de funções por redes neurais J1∗ (z1 ) = min r1 (z1 (s), α1 (z1 ))ds
α1 ∈Ψ(Ω1 ) t
a convergên- Z ∞
cia para eq Neste trabalho são utilizadas RN com funções ra-
HJB n-linear = r1 (z1 (s), α1∗ (z1 ))ds (9)
diais de base (RBF - do inglês Radial Basis Functi- t
discreta)
ons) como as RN ator/crı́tico para o procedimento
RL, devido a sua capacidade universal de aproxi- sendo Ψ(Ω1 ) o domı́nio de polı́ticas de controle
mação de funções contı́nuas não-lineares. Para tal, admissı́veis sobre o conjunto compacto Ω1 que
define-se uma função contı́nua g(z) : Rn 7→ Rm , contém a origem, α1 (z1 ) é o controle virtual e
que é aproximada pela RN na forma r1 (z1 , α1 ) = z12 + α12 é a função de custo.
Reescrevendo J1∗ (z1 ) como
g(z) = W ∗T S(z) + ε, ∀z ∈ Ωz (6)
J1∗ (z1 ) = J1∗ (z1 ) − β1 z12 + β1 z12
T n
onde z = [z1 , z2 , . . . , zn ] ∈ Ωz ⊂ R é o vetor = J10 (z1 ) + β1 z12 (10)
de entrada, W ∗ ∈ Rp×m é uma matriz de pesos
ideais, sendo p o número de neurônios, ε(z) ∈ Rm tem-se J ∗ (z1 ) escrita em função de dois termos,
é o erro de aproximação, tal que ||ε(z)|| ≤ δ e o primeiro, J10 ∈ R é uma função-valor contı́nua
S(z) = [s1 (z), s2 (z), . . . , sp (z)]T é o vetor da RBF escalar e o segundo, β1 z12 visa alcançar o rastre-
com si (z), para i = 1, 2, . . . , p, dado por funções amento com desempenho desejado para o subsis-
gaussianas, da seguinte forma tema, a partir da escolha de β1 , que deve ser uma
constante de projeto positiva. variável?
(z − µi )T (z − µi )

si (z) = exp − , (7) Afim de obter a lei de controle ótima para o
σi2 subsistema, constrói-se a seguinte equação de HJB
sendo µi = [µi1 , µi2 , . . . , µin ] os centros das RBFs (Kirk, 2004) a partir da dinâmica do erro (8)
espalhamentos? e σi os espalhamentos das funções Gaussianas.
∂J ∗

∂J ∗
desvio padrão?
H1 z1 , α1∗ , 1 = r1 (z1 , α1∗ ) + 1 ż1
∂z1 ∂z1
4 Extensão do método OB
∂J 0

2
Esta seção = z12 + α1∗ (z1 ) + 2β1 z1 + 1
não está na Esta seção apresenta uma extensão do método ∂z1
versão final.
A versão
backstepping otimizado (OB - Optimized Backs- × [f1 + g1 (x̄1 )α1∗ (z1 ) − ẏr ] = 0
final será tepping). Proposto originalmente por Wen et al. (11)
bem mais
enxuta.
A lei de controle ótima α1∗ é encontrada fazendo-se
∂H1 /∂α1∗ = 0, que resulta em 2
1 T
H1 z1 , α1∗ , Ŵc1 = z12+ −β1 g1 z1 − Ŵa1 S1
1 ∂J 0 2
α1∗ (z1 ) = −β1 g1 (x̄1 )z1 − g1 (x̄1 ) 1 (12) h ih
2 ∂z1 + 2β1 z1 + ŴcT1 S1 f1 − ẏr
A lei de controle (12) em geral é difı́cil solução de- 1 i
− β1 g12 z1 − g12 ŴaT1 S1 .
vido a fortes não linearidades, portanto utiliza-se 2
aprendizado reforçado por meio de redes neurais e (19)
arquitetura ator/crı́tico para aproximação da so-
lução ótima. Neste sentido ∂J10 /∂z1 é escrita como Pela equação de HJB (16) e sua aproximação
uma RN da forma (19), calcula-se o erro residual de Bellman como

∂J10 e1 (t) = H1 z1 , α1∗ , Ŵc1 − H1 (z1 , α1∗ , W1∗ )
= W1∗T S1 (z1 ) + ε1 (z1 ) (13)
∂z1
= H1 z1 , α1∗ , Ŵc1 . (20)
sendo W1∗ ∈ Rn1 o vetor de pesos ideal na RN,
n1 o número de neurônios; S1 (z1 ) ∈ Rn1 é o ve- A partir de uma função definida positiva do
tor de funções gaussianas; e ε1 ∈ R é o erro de erro e1 (t),
aproximação, que é limitado. 1
E1 (t) = e21 (t), (21)
A partir de (13) e da derivada parcial de (10) 2
em relação a z1 no intuito de minimizar o erro de Bellman (20),
define-se a seguinte equação de atualização da RN
∂J1∗ crı́tica, baseando-se no método do gradiente des-
= W1∗T S1 (z1 ) + 2β1 z1 + ε1 (z1 ) (14)
∂z1 cendente:
A lei de controle ótima pode ser rescrita, de (13)
em (12) como ˙ γc1 ∂E1
Ŵc1 = − 2
||ω1 || + 1 ∂ Ŵc1
1
α1∗ (z1 ) = −β1 g1 (x̄1 )z1 − g1 (x̄1 ) W1∗T S1 (z1 ) + ε1

γc1
2 = − ω1 ω1T Ŵc1 − (β12 g12 − 1)z12
(15) ||ω1 ||2 + 1
Substituindo (14) e (15) na equação de HJB (11) g2 T

tem-se + 2β1 z1 f1 − ẏr + 1 Ŵa1 S̄1 Ŵa1 (22)
4
H1 (z1 , α1∗ , W1∗ ) = Sendo ω1 ∈ Rn1 dado por
− (β12 g12 (x̄1 ) − 1)z12 + 2β1 z1 [f1 − ẏr ]
h i
ω1 = S1 f1 − β1 g12 z1 − (1/2)g12 Ŵa1
T
S1 − ẏr
+ W1∗T S1 (z1 ) f1 − β1 g12 (x̄1 )z1 − ẏr

1 A RN ator é projetada como

− W1∗T S1 (z1 )S1T (z1 )W1∗ + = 0, (16)
4 ˙ 1
Ŵa1 = g12 z1 S1 − γa1 S̄1 Ŵa1
corrigir 1 com 1 = ε(z1 )[f1 +α1∗ − ẏr ]+(1/4)ε21 (z1 ) limitado, 2
γc1
uma vez que todos os seus termos são limitados. + g 2 S̄1 Ŵa1 ω1T Ŵc1 , (23)
4(||ω1 ||2 + 1) 1
Como o vetor ótimo W1∗ é desconhecido este é es-
timado a partir de aproximações por RN ator e de modo que a função candidata de Lyapunov a
crı́tico de acordo com as equações (17) e (18) a ser definida em (25) tenha sua derivada temporal
seguir. tal que o ponto de equilı́brio para a dinâmica dos
erros seja SGUUB, de acordo com o procedimento
adotado na sequência.
∂ Jˆ1∗ T O erro do sinal de controle virtual para z2 é
= 2β1 z1 + Ŵc1 S1 (z1 ) (17)
∂z1 definido como z2 = x2 − α̂1 . Isolando x2 e substi-
1 tuindo em (8), tem-se
α̂1 = −β1 g1 (x̄1 )z1 − g1 (x̄1 )ŴaT1 S1 (z1 ) (18)
2
ż1 = f1 + g1 (z2 + α̂1 ) − ẏr (24)
sendo Jˆ1∗ uma estimativa de J1∗ , Ŵc1 T
∈ Rn1 e
T n1 modifiquei
Ŵa1 ∈ R são os pesos das RN crı́tico e ator,
Definindo a função candidata de Lyapunov aqui (24)
respectivamente. g1 não es-
Substituindo (17) e (18) em (11), suprimindo 1 2 1 T 1 T tava multi-
as dependências de x̄1 em f1 (x̄1 ) e g1 (x̄1 ), de z1 L1 = z + W̃ W̃a1 + W̃c1 W̃c1 (25) plicando o
2 1 2 a1 2
em S(z1 ) e definindo S1 S1T , S̄1 , para uma nota- α̂1 .
ção mais compacta, tem-se a seguinte aproxima- sendo W̃c1 = Ŵc1 −W1∗ e W̃a1 = Ŵa1 −W1∗ os erros
ção para a equação de HJB de estimação das RN crı́tico e ator. Derivando L1
em relação ao tempo e utilizando (22), (23), (24) sendo c1 = γc1 /(||ω1 ||2 + 1). Tem-se ainda que
e (18) resulta em T
2Ŵa1 S̄1 W1∗ − W1∗T S̄1 W1∗ − Ŵa1
T T
S̄1 Ŵa1 =
1
L̇1 = g1 z1 z2 − β1 g12 z12 − g12 z1 Ŵa1
T T
− W̃a1 S1 W1∗T S̄1 W̃a1 − W̃a1
T
S̄1 Ŵa1 ,
2
T T
− γa1 W̃a1 S̄1 Ŵa1 + a1 − b1 + z1 [f1 − ẏr ] (26)
T c1 h T i
c1 Ŵc1 ω1 1 ≤ W̃c1 ω1 ω1T W̃c1 + 21
sendo os termos 2
γc1 c1 T γc1 2
a1 = g 2 W̃ T S̄1 Ŵa1 ω1T Ŵc1 (27) ≤ W̃c1 ω1 ω1T W̃c1 + ,
4(||ω1 ||2 + 1) 1 a1 2 2 1
γc1 T
h
Usando estas relações em (33) obtém-se
b1 = Ŵ c1 ω 1 ω1T Ŵc1 − (β12 g12 − 1)z12
(||ω1 ||2 + 1)
1 1 13 γa1 T
L̇1 ≤ g12 z22 − β1 g12 − z12 −
i
+ 2β1 z1 (f1 − ẏr ) + g12 Ŵa1 T T
S̄1 Ŵa1 (28) W̃a1 S̄1 W̃a1
4 2 8 2
γa1 T c1
Como W̃a1 = Ŵa1 − W1∗ tem-se que − Ŵa1 S̄1 Ŵa1 + a1 − g12 W̃c1 T T
ω1 W̃a1 S̄1 Ŵa1
2 4
T
Ŵa1 − W̃a1T
= W1∗T c1 2 T c 1
+ g1 W̃c1 ω1 W1∗T S̄1 W̃a1 − W̃c1 T
ω1 ω1T W̃c1
T γa1 h T T
4 2
γa1 W̃a1 S̄1 Ŵa1 = W̃a1 S̄1 W̃a1 + Ŵa1 S̄1 Ŵa1 γc1 2 1 h 2 i
2 + + f1 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 ,
i 2 2
− W1∗T S̄1 W1∗ (34)
Substituindo estes resultados em (26) Substituindo a relação a seguir
1 γa1 c1 2 T
L̇1 = g12 z1 z2 − β1 g12 z12 − g12 z1 W1∗T S1 − a1 − T
g W̃ ω1 W̃a1 S̄1 Ŵa1
2 2 4 1 c1
c1 2 T
h i
T
× W̃a1 T
S̄1 W̃a1 + Ŵa1 S̄1 Ŵa1 − W1∗T S̄1 W1∗ = g1 W̃a1 S1 W1∗T ω1 S1T Ŵa1 ,
4
+ a1 − b1 + z1 f1 + z1 ẏr (29)
em (34), resulta em
Pela desigualdade de Young, xy ≤ x2 /2 + y 2 /2,
tem-se que 1 13 γa1 T
L̇1 ≤ g12 z22 − β1 g12 − z12 − W̃a1 S̄1 W̃a1
1 2 8 2
g1 z1 z2 ≤ (z12 + g12 z22 ) γa1 T c1
2 − Ŵa1 S̄1 Ŵa1 + g12 W̃a1 T
S1 W1∗T ω1 S1T Ŵa1
1 2 2 4
z1 f1 ≤ (z1 + f12 ) c1 c1 T
2 + g12 W̃c1T
ω1 W1∗T S̄1 W̃a1 − W̃c1 ω1 ω1T W̃c1
4 2
1 2 γc1 2 1 h 2
−z1 ẏr ≤ (z1 + ẏr2 )
i
2 + + f1 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 ,
2 2
1 2 1 2 1 4 (35)
− g1 z1 W1 S1 ≤ z1 + g1 (W1∗T S1 )2 . (30)
∗T
2 8 2
Aplicando estas desigualdades em (29) Utilizando desigualdades de Young, conclui-se que
c1 T γ2

1 2 2 2 13 γa1 T W̃a1 S1 W1∗T ω1 S1T Ŵa1 ≤ c1 Ŵa1 T
L̇1 ≤ g1 z2 − β1 g1 − z12 − W̃a1 S̄1 W̃a1 4 2
S̄1 Ŵa1
2 8 2
γa1 T 1 T
− Ŵa1 S̄1 Ŵa1 + a1 − b1 + W̃a1 S1 W1∗T ω1 ω1T W1∗ S1T W̃a1
2 32
1 h i c1 2 T γ2
+ f12 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 . (31) g1 W̃c1 ω1 W1∗T S̄1 W̃a1 ≤ c1 g14 W̃a1T
S̄1 W̃a1
2 4 2
A partir de (16), tira-se a relação 1
+ W̃ T ω1 W1∗T S̄1 W1T ω1T W̃c1 .
32(||ω1 ||2 + 1) c1
−(β12 g12 − 1)z12 + 2β1 z1 [f1 − ẏr ] =
1 1 Inserindo estes resultados na equação (35) e fa-
− ω1T W1∗ − g12 Ŵa1 T
S̄1 W1∗ + g12 W1∗T S̄1 W1∗ − 1 zendo algumas manipulações, levando em conta
2 4
(32) que L é um valor escalar, resulta em
γ2 T

Substituindo em (28), (31) se torna 1 2 2 13 γ
a1
L̇1 ≤ g1 z2 − β1 g1 − 2
z12 − − c1 Ŵa1 S̄1 Ŵa1
1 2 2

13

γa1 T 2 8 2 2
2
L̇1 ≤ g1 z2 − β1 g1 − z12 − W̃a1 S̄1 W̃a1
2 8 2
γ
a1 γ2 1
− − c1 g14 − W1∗T ω1 ω1T W1∗ W̃a1 T
S̄1 W̃a1
γa1 T T
h 2 2 32
− Ŵa1 S̄1 Ŵa1 + a1 − c1 W̃c1 ω1 ω1T W̃c1T
− 1 γ 1
2 − c1
c1
− W1∗T S̄1 W1∗ W̃c1 T
ω1 ω1T W̃c1
1 i 2 32
− g12 2Ŵa1T
S̄1 W1∗ − W1∗T S̄1 W1∗ − Ŵa1T T
S̄1 Ŵa1 1h i
4 + f12 + ẏr2 + (γa1 + g14 )(W1∗T S1 )2 + γc1 21 .
1h 2 i 2
+ f1 + ẏr2 + (γa1 + g12 )(W1∗T S1 )2 , (33) (36)
2
A derivada da função candidata de Lyapunov 4.2 Passos i, com i = 2, . . . , n
L̇1 (t), dada por (36) pode ser escrita na seguinte
Para os passos seguintes adotam-se, basicamente, os
forma compacta mesmos procedimentos utilizados no passo 1, conside-
rando porém, algumas modificações. Ainda tenho que
γ 2
a1 γc1 colocar isso aqui.
L̇1 ≤ −ξ1T A1 ξ1 − − T
Ŵa1 S̄1 Ŵa1 Falta colocar também a prova de estabilidade final.
2 2
Vou ter que fazer um pouco de mágica para caber.
g2
+ C1 + 1 z22 . (37) Mas vai dar.
2
Sendo: 5 Conclusões
T T
T

ξ1 = z1 W̃a1 W̃c1 Listar conclusões nesta seção.
1h i
C1 = f12 + ẏr2 + (γa1 + g14 )(W1∗T S1 )2 + γc1 21
2
Agradecimentos
β1 g12 − 13
 
8 0 0
A1 =  0 a22 0  Agradecer.
0 0 a33
com Referências
2
γ
a1 γc1 g4
Aguirre, L. A., Bruciapaglia, A. H., Miyagi, P. E.
a22 = − g14 − 1 W1∗T ω1 ω1T W1∗ S̄1
2 2 32 and Piqueira, J. R. C. (2007). Enciclopédia
γ 1 ∗T
a33 = c1
c1
− W1 S̄1 W1∗ ω1 ω1T (38) de automática: controle e automação, Blu-
2 32 cher, São Paulo. OCLC: 246910304.
Para que a matriz A1 possa ser feita positiva Al-Tamimi, A., Lewis, F. and Abu-Khalaf, M.
definida, uma condição necessária é que ω1 ω1T seja (2008). Discrete-Time Nonlinear HJB Solu-
persistentemente excitante, com isso, assume-se a tion Using Approximate Dynamic Program-
seguinte hipótese: ming: Convergence Proof, IEEE Transacti-
ons on Systems, Man, and Cybernetics, Part
Hipótese 1 (Persistência de Excitação) B (Cybernetics) 38(4): 943–949.
Os sinais ωi , com i = 1, 2, . . . , n, satisfazem a
seguinte condição de persistência de excitação Bai, Y., Cao, Y. and Li, T. (2019). Optimi-
(PE) sobre o intervalo [t, t + T ]: zed Backstepping Design for Ship Course fol-
lowing Control Based on Actor-Critic Archi-
Z t+T tecture with Input Saturation, IEEE Access
ηi Ini ≤ ωi (τ )ωiT (τ )dτ ≤ ζi Ini 7: 73516–73528.
t
Ainda falta sendo ηi > 0, ζi > 0, T > 0, e Ini ∈ Rni ×ni Ge, S. S. and Wang, C. (2004). Adaptive
olhar a ques- a matriz de identidade (Vamvoudakis and Lewis, neural control of uncertain MIMO nonli-
tão das nor-
2010). near systems, IEEE Transactions on Neural
mas. A prin- Networks 15(3): 674–692.
cı́pio acho
que deveria Além de satisfazer a Hipótese 1, as as seguin-
Khalil, H. K. (2002). Nonlinear Systems, 3rd ed
tê-las. tes condições também devem ser satisfeitas, como
edn, Prentice Hall, Upper Saddle River, N.J.
condição suficiente para que A1 seja definida po-
Tenho que sitiva: Kirk, D. E. (2004). Optimal Control Theory:
trabalhar
mais nessas 13

ζ2 ∗T ∗
An Introduction, Dover Publications, Mine-
2
condições. β1 > , γa1 > γc1 + W1 W1 ζ3 ola, N.Y.
Pelo jeito,
8ζ1 16
pelo menos 1 Lewis, F. L., Vrabie, D. and Vamvoudakis, K. G.
sup W1∗T S̄1 W1∗

o β1 terá γc1 ≥ (39)
16 t≥0 (2012). Reinforcement learning and feed-
que ficar em
função de back control: Using natural decision methods
g1 (x̄1 ). A em que ζ1 = inf t≥0 {g12 (x̄1 )}, ζ2 = supt≥0 {ω1 ω1T } to design optimal adaptive controllers, IEEE
princı́pio isso e ζ3 = supt≥0 {g14 (x̄1 )}. Control Systems Magazine 32(6): 76–105.
não parece
“muito” pro-
Com isso a desigualdade (37) pode ser rescrita
blema. como Raffo, G. V., Ortega, M. G. and Rubio,
F. R. (2008). Backstepping/nonlinear
L̇1 ≤ −ā1 ||ξ1 ||2 + c̄1 + g12 z22 (40) $\mathcal{H} \infty$ control for path trac-
king of a quadrotor unmanned aerial vehicle,
sendo ā1 = inf t≥0 {λmin {A1 (t)}}, c̄1 = Proceedings of the American Control Confe-
supt≥0 {C1 (t)} e λmin {·} o mı́nimo autovalor. rence pp. 3356–3361.
Sutton, R. S. and Barto, A. G. (2018). Reinfor-
cement Learning: An Introduction, Adaptive
Computation and Machine Learning Series,
second edition edn, The MIT Press, Cam-
bridge, Massachusetts.
Vamvoudakis, K. G. and Lewis, F. L. (2010).

Online actor–critic algorithm to solve the
continuous-time infinite horizon optimal con-
trol problem, Automatica 46(5): 878–888.
Wen, G., Ge, S. S., Chen, C. L., Tu, F. and Wang,

S. (2019). Adaptive tracking control of sur-
face vessel using optimized backstepping te-
chnique, IEEE Transactions on Cybernetics
49(9): 3420–3431.
Wen, G., Ge, S. S. and Tu, F. (2018). Opti-

mized Backstepping for Tracking Control of
Strict-Feedback Systems, IEEE Transactions
on Neural Networks and Learning Systems
29(8): 3850–3862.
Todo list
o Mudar o tı́tulo para Introdução? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

o Colocar referência para o backstepping, Khalil, Slotine, Enciclpédia de Automática, Petrus? . . 1
o Referência aqui... Kirk? mais? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
o Colocar referencias aqui. Sutton e Barto? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
o melhorar isso aqui. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
o confirmar isso aqui. Colocar p/ i=1,...,n? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
o colocar somente esta sentença é suficiente, ou precisa ser mais formal, como fiz após apresentar
(1)? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
o Colocar definicao de SGUUB em inglês? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
o Pode não ser constante? Creio que sim. Confirmar isso. Mas deve-se ter que ẏr seja suave. . . 2
o colocar aqui (footnote?) que esta não é a única forma de se proceder? . . . . . . . . . . . . . . 2
o Colocar isso? Uma vez que lido com o caso contı́nuo? E a convergência para o caso contı́nuo?
(deixar claro que é a convergência para eq HJB n-linear discreta) . . . . . . . . . . . . . . . . 3
o espalhamentos? desvio padrão? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
o Esta seção não está na versão final. A versão final será bem mais enxuta. . . . . . . . . . . . . 3
o variável? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
o corrigir 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
o modifiquei aqui (24) g1 não estava multiplicando o α̂1 . . . . . . . . . . . . . . . . . . . . . . . . 4
o Ainda falta olhar a questão das normas. A princı́pio acho que deveria tê-las. . . . . . . . . . . . 6
o Tenho que trabalhar mais nessas condições. Pelo jeito, pelo menos o β1 terá que ficar em função
de g1 (x̄1 ). A princı́pio isso não parece “muito” problema. . . . . . . . . . . . . . . . . . . . . . 6
o Para os passos seguintes adotam-se, basicamente, os mesmos procedimentos utilizados no passo
1, considerando porém, algumas modificações. Ainda tenho que colocar isso aqui.
Falta colocar também a prova de estabilidade final. Vou ter que fazer um pouco de mágica
para caber. Mas vai dar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Cba PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cba PDF

Enviado por

Direitos autorais:

Formatos disponíveis

EXTENSÃO DO MÉTODO BO PARA SISTEMAS AFINS NA ENTRADA COM

APLICAÇÃO NO CONTROLE DE TRAJETÓRIAS DE UM QUADROTOR

João C. V. de Castro,∗ Luis A. Aguirre∗

Emails: jcvilela@ufop.edu.br, aguirre@ufmg.br

Palavras-chave— Exemplo, Ilustração.

1 Introdução fundindo otimização ao procedimento backstep-

1 A RN ator é projetada como

Vamvoudakis, K. G. and Lewis, F. L. (2010).

Wen, G., Ge, S. S., Chen, C. L., Tu, F. and Wang,

Wen, G., Ge, S. S. and Tu, F. (2018). Opti-

o Mudar o tı́tulo para Introdução? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Você também pode gostar