Você está na página 1de 33

Introduccin al control ptimo

El mtodo de diseo por realimentacin de estados y observador, no obstante ser


una herramienta fundamental en el control de sistemas en E.E., no siempre es el
mtodo de diseo ms til por:
El traslado de las especicaciones de diseo (mximo sobre impulso, etc.),
no siempre es directo, particularmente para sistemas complejos; cul es la
mejor conguracin de polos para las especicaciones dadas?
En sistemas MIMO las ganancias de realimentacin de estados que logran
una conguracin de polos dada, no es nica. Cul es la mejor K para una
conguracin de polos dada?.
Los autovalores del observador deberan escogerse ms rpidos que los del
sistema de lazo cerrado. Hay algn otro criterio disponible para ayudar a
decidirse por una conguracin o por otra?.
Los mtodos que introduciremos ahora dan respuesta a esas preguntas. Veremos
cmo las ganancias de la realimentacin de estados y del observador se pueden
calcular en una forma ptima.
Realizaci on p. 1/33
El problema de control ptimo bsico
Qu signica ptimo?. ptimo signica hacer un trabajo en la mejor forma
posible. No obstante, antes de iniciar a buscar una solucin ptima,
Se debe denir el trabajo.
Se debe establecer una escala matemtica para cuanticar lo que
signicamos como mejor.
Se deben descartar las otras alternativas posibles.
A menos que los cualicadores sean claros y consistentes, declarar que un sis-
tema es ptimo no tiene sentido real.
Un sistema simple, impreciso, pero no costoso, fcil de implementar y con un
desempeo adecuado podra considerarse ptimo.
De otro lado, un sistema muy preciso y elegante podra considerarse no ptimo
por ser demasiado costoso o muy complejo o por que su implementacin tarda
mucho tiempo.
Realizaci on p. 2/33
El problema de control ptimo bsico
La declaracin matemtica del problema de control ptimo consiste de,
1. Una descripcin del sistema a ser controlado.
2. Una descripcin de las limitaciones y posibles alternativas del sistema
3. Una descripcin de la tarea a ser desarrollada
4. Una declaracin del criterio para juzgar el desempeo ptimo
Realizaci on p. 3/33
El problema de control ptimo bsico
El sistema dinmico a ser controlado se describe en la forma de variables de
estado, i.e., en tiempo continuo por,
x(t) = Ax(t) +Bu(t); x(0) = x
0
y(t) = Cx(t)
o en tiempo discreto por,
x[k + 1] = Ax[k] +Bu[k]; x[0] = x
0
y[k] = Cx[k]
En lo que sigue, asumiremos que todos los estados estn disponibles para
medidas, o de otro modo, que el sistema es observable, de modo que se puede
construir un observador para estimar el estado.
Realizaci on p. 4/33
El problema de control ptimo bsico
Las limitaciones del sistema existirn algunas veces sobre valores permitidos de
las variables de estado o sobre las entradas de control. Por ejemplo, el conjunto
de controles admisibles podra ser el conjunto de vectores continuos a trozos
u(t) U tales que
U = u(t) : ||u(t)
k
|| < Mt
representar saturacin en los actuadores.

u
1
(t)
u
2
(t)
u
3
(t)

= |u
1
(t)|
2
+|u
2
(t)|
2
+|u
3
(t)|
2
< M
2
t
u
1
(t)
u
2
(t)
u
3
(t)
Realizaci on p. 5/33
El problema de control ptimo bsico
La tarea a realizar usualmente toma la forma de condiciones de frontera
adicionales sobre las ecuaciones de espacio de estados. Por ejemplo, podramos
desear transferir el estado x(t) desde un estado inicial conocido x
0
a un estado
nal especicado x
f
(t
f
) = x
d
en un tiempo especicado t
f
, o en el mnimo t
f
posible.
x
0
x
d
x(t)
A menudo, la tarea a realizar se considera implcitamente en el criterio de
desempeo.
Realizaci on p. 6/33
El problema de control ptimo bsico
El criterio de desempeo, denotado J, es una medida de la calidad del
desempeo del sistema. Usualmente, intentaremos minimizar or maximizar el
criterio de desempeo seleccionando la entrada de control. Para cada u(t) posible
(i.e., uno que realice la tarea deseada satisfaciendo las restricciones del sistema),
se asociar una trayectoria del sistema x(t).
t t
x
0
T
0
0 T
x(t) + x(t)
v(t)
u(t)
x(t)
La entrada u(t) genera la trayectoria x(t). Una variacin v(t) en u(t) genera una
trayectoria diferente x(t) +x(t).
Realizaci on p. 7/33
El problema de control ptimo bsico
Un criterio de desempeo comn es el de tiempo mnimo, en el cual buscamos el
control u(t) que produce la trayectoria ms rpida para obtener el estado nal
deseado.
t
x
0
0 T
x
d
T
T
En este caso el criterio de desempeo a minimizar puede expresarse
matemticamente simplemente como J = T
Realizaci on p. 8/33
El problema de control ptimo bsico
Otro criterio de desempeo podra ser el error nal al obtener el estado nal
deseado en un tiempo especicado de antemano T,
J = ||x(T)||
2
t
x
0
0 T
x
d
x(T)
Realizaci on p. 9/33
El problema de control ptimo bsico
Otro criterio de desempeo podra ser minimizar el rea bajo ||x(t)||
2
, como una
forma para seleccionar aquellos controles que producen los transitorios ms pe-
queos sobre toda la trayectoria generada entre x
0
y el estado nal.
t
T
0
u(t)
2
J =

T
0
u(t)
2
dt
t
0 T
x(t)
2
J =

T
0
x(t)
2
dt
An otro criterio de desempeo podra ser minimizar el rea bajo ||u(t)||
2
, co-
mo una forma de seleccionar aquellos controles que usan el menor esfuerzo de
control.
Realizaci on p. 10/33
Control ptimo cuadrtico
Un criterio de desempeo muy importante que combina los ejemplos previos es el
criterio de desempeo cuadrtico. Este criterio se puede expresar en forma
general como
J = x
T
(T)Sx(T) +
_
T
0
[x
T
(t)Qx(t) +u
T
(t)Rx(t)]dt
Las matrices de pesado S;Q y R permiten un trato pesado entre los criterios
previos. En particular, por ejemplo,
S = I; Q = 0; R = 0 J = ||x(T)||
2
S = 0; Q = 0; R = I J =
_
0
T
||u(t)||
2
dt
Las matrices S y Q son simtricas y no denidas negativas, mientras R es
simtrica y denida positiva.
Realizaci on p. 11/33
Matrices denidas positivas
Recordemos que una matriz simtrica M R
nn
es denida positiva si
x
T
Mx > 0 x = 0; x R
n
, y no denida negativa si x
T
Mx 0 x = 0; x R
n
.
Una matriz simtrica es denida positiva (no denida negativa) si y solo si todos
sus autovalores son positivos (no negativos)
Ejemplo.
M
1
=
_
3 0
0 1
_
es denida positiva;
_
x
1
x
2

M
1
_
x
1
x
2
_
= 3x
2
1
+x
2
2
M
2
=
_
3 0
0 0
_
es no denida negativa;
_
x
1
x
2

M
2
_
x
1
x
2
_
= 3x
2
1
M
3
=
_
3 0
0 1
_
No es signo denida;
_
x
1
x
2

M
3
_
x
1
x
2
_
= 3x
2
1
x
2
2
Realizaci on p. 12/33
Control ptimo cuadrtico
El criterio de desempeo cuadrtico para sistemas de tiempo discreto es,
J
0,N
= x
T
N
Sx
N
+
N1

K=0
x
T
K
Qx
k
+u
T
k
Rx
k
donde se ha escrito x
k
para representar x[k], por simplicidad de notacin.
Si N ( horizonte de optimizacin ) se ja a N = obtenemos un problema de
control ptimo de horizonte nito . En este caso, por estabilidad, se requerir que
lm
N
X
N
= 0.
J
0,
=

K=0
x
T
K
Qx
k
+u
T
k
Rx
k
El criterio de horizonte innito en tiempo continuo es
J

=
_

0
[x
T
(t)Qx(t) +u
T
(t)Rx(t)]dt
Realizaci on p. 13/33
Realimentacin de estados ptima LQ (LQR)
Teorema (LQR). Considere el sistema de espacio de estados
x = Ax +Bu; x R
n
; u R
p
y = Cx;
y el criterio de desempeo J =
_

0
[x
T
(t)Qx(t) + u
T
(t)Rx(t)]dt; donde Q es
no denida negativa y R es denida positiva. Entonces el control ptimo que
minimiza (J) est dado por la ley lineal de realimentacin de estado,
u(t) = Kx(t) con K = R
1
B
T
P
y donde P es la nica solucin denida positiva de la matriz Ecuacin Algebraica
de Riccati (EAR),
A
T
P +PAPBR
1
B
T
P +Q = 0
Realizaci on p. 14/33
Realimentacin de estados ptima LQ (LQR)
As, para disear una ley de realimentacin de estado ptima u = Kx
minimizando el costo
J =
_

0
[x
T
(t)Qx(t) +u
T
(t)Rx(t)]dt,
tenemos que,
1. Encontrar la solucin simtrica y denida positiva de la (EAR)
A
T
P +PAPBR
1
B
T
P +Q = 0
2. Fijar K = R
1
B
T
P .
En MATLAB K y P se pueden calcular usando,
[ K,P] = lqr(A,B,Q,R);
Realizaci on p. 15/33
Realimentacin de estados ptima LQ (LQR)
Las matrices Q R
nn
(denidas no negativas) y and R R
pp
(denida
positiva), son los parmetros de sintona del problema. Por ejemplo, le eleccin
Q = C
T
C y R = I, con > 0 corresponde a hacer un equilibrio entre las
energas de la salida de la planta y la entrada, con el costo
J =
_

0
[||y()||
2
+||u()||
2
]d
pequea convergencia ms rpida de y(t) 0 pero comandos de
control u(t) grandes (ganancia de control grande)
grande respuesta convergencia ms rpida de y(t) 0 pero comandos
de control u(t) ms pequeos (ganancia de control pequea).
Realizaci on p. 16/33
Realimentacin de estados ptima LQ (LQR)
Bajo algunas asunciones razonables, la matriz P que resuelve la (EAR)
A
T
P +PAPBR
1
B
T
P +Q = 0 existe. Adems, el sistema de lazo cerrado
correspondiente es estable (i.e. ABK es Hurwitz).
Ejemplo
Suponga que G(s) =
1
s(s+1)
. Escribiendo x
2
=
1
s+1
u ; x
1
=
1
s
x
2
y y = x
1
,
obtenemos la representacin en espacio de estado,
x =
_
0 1
0 1
_
x +
_
0
1
_
u
y = [1 0]x
suponga que la funcin de costo de la realimentacin de estado es
J =
_

0
[u
2
+x
2
1
+x
2
2
]dt
Realizaci on p. 17/33
Realimentacin de estados ptima LQ (LQR)
Esto da las matrices de pesado Q = I y R = 1. La EAR requiere que P satisfaga
_
0 0
1 1
_
P +P
_
0 1
0 1
_
P
_
0
1
_
_
0 1

P +
_
1 0
0 1
_
= 0
Ya que requerimos que P sea denida positiva, y symtrica, sea,
P =
_
p
11
p
12
p
12
p
22
_
Esto arroja las ecuaciones simultneas
p
2
12
1 = 0
2(p
12
p
22
) p
2
22
+ 1 = 0
p
11
= p
12
+p
12
p
22
Realizaci on p. 18/33
Realimentacin de estados ptima LQ (LQR)
Hay tres posibles soluciones a las ecuaciones simultneas previas, a saber,
P =
_
0 1
1 1
_
, P =
_
2 1
1 3
_
, P =
_
2 1
1 1
_
Solo la ltima de ellas es denida positiva, as que es la que requerimos. Esto da,
K = R
1
B
T
P = [0 1]P =
_
2 1
1 1
_
=
_
1 1

con polos de lazo cerrado en los autovalores de


(ABK) =
_
0 1
0 1
_

_
0
1
_
_
1 1

=
_
0 1
0 1
_

_
0 1
1 1
_
=
_
0 1
1 2
_
Realizaci on p. 19/33
Obtencin del control ptimo LQR
Veremos cmo se obtiene el resultado del control LQR. Quremos encontrar una
ley de control que minimize el criterio de desempeo de horizonte innito
J =
_

0
[x
T
(t)Qx(t) +u(t)
T
Ru(t)]dt
Suponga que P es simtrica denida positiva, solucin de la EAR A
T
P + PA
PBR
1
B
T
P +Q = 0
Denamos la forma cuadrtica V (t) = x
T
(t)Px(t). Notemos que,

V = x
T
Px +x
T
Px
= (Ax +Bu)
T
Px +x
T
P(Ax +Bu)
= x
T
(A
T
P +PA)x +u
T
B
T
Px +x
T
PBu
Realizaci on p. 20/33
Obtencin del control ptimo LQR
De la EAR tenemos que,
A
T
P +PA = Q+PBR
1
B
T
P
as que

V = x
T
Qx +x
T
(PBR
1
B
T
P)x +u
T
B
T
Px +x
T
PBu+u
T
Ru u
T
Ru
= [x
T
Qx +u
T
Ru] + (B
T
Px +Ru)
T
R
1
(B
T
Px +Ru)
Luego,
_

0

V (t)dt = J +
_

0
(B
T
Px +Ru)
T
R
1
(B
T
Px +Ru)dt
V ()
. .
0
V (0) = J +
_

0
(B
T
Px +Ru)
T
R
1
(B
T
Px +Ru)dt
J = x
T
(0)Px(0) +
_

0
(B
T
Px +Ru)
T
R
1
(B
T
Px +Ru)dt
Realizaci on p. 21/33
Obtencin del control ptimo LQR
Llegamos a,
J = x
T
(0)Px(0) +
_

0
(B
T
Px +Ru)
T
R
1
(B
T
Px +Ru)dt
Ya que el segundo trmino de la derecha no es negativo, el mnimo de J se logra
claramente cuando
u = R
1
B
T
Px = Kx
y el valor mnimo del costo es por eso
min
u J = x
T
(0)Px(0)
Realizaci on p. 22/33
Ejemplo de diseo LQR
Regulacin de temperatura de un horno.
La Figura representa un horno, aislado longitudinalmente, pero expuesto a la
temperatura ambiente Text en un extremo y calentado en el otro extremo u.
Calefactor
x
3
x
2
Termocuplas
u
x
1
T
ext
El horno posee tres puntos de medicin, indicados como termocuplas para
sensar las temperaturas en x
1
, x
2
y x
3
.
Un modelo en ecuaciones de estado, tomando como variables de estado las
temperaturas en x
1
, x
2
y x
3
, como entrada de control u y como entrada de per-
turbacin Text, es
Realizaci on p. 23/33
Ejemplo de diseo LQR
_
_
x
1
x
2
x
3
_
_
=
_
_
3/2 1/2 0
1/2 1 1/2
0 1/2 3/2
_
_
_
_
x
1
x
2
x
3
_
_
+
_
_
1
0
0
_
_
u +
_
_
1
0
0
_
_
Text.
Criterios de diseo
Se desea disear un regulador para la temperatura en x
2
para que con una
temperatura de referencia Tref = 200

C se satisfagan las siguientes


especicaciones:
1. Tiempo de establecimiento menor a 5 segundos.
2. Sobreimpulso menor a 15%.
3. Error cero esttico a una entrada Tref escaln arbitraria.
4. Error cero esttico a una perturbacin escaln Text arbitraria.
Las especicaciones exigen agregar una accin integral.
Realizaci on p. 24/33
Ejemplo de diseo LQR
Diseemos la ganancia de realimentacin usando la funcin lqr. Escojamos
(para la planta aumentada (A
a
; B
a
) con accin integral)
Q =
_

_
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 1
_

_
; y R =
k
; con k = 0, 1, 2, 3.
Esta eleccin de pesos representar la funcin de costo de minimizacin
J =
_

0
[
2
() +u
2
()]d;
donde es la integral del error de seguimiento.
Realizaci on p. 25/33
Ejemplo de diseo LQR
Diseamos las ganancias usando la funcin
Ka = dlqr(Aa,Ba,Q,R);
para los distintos valores de , y se obtuvo un conjunto de cuatro ganancias.
0 5 10 15
0
50
100
150
200
250
x
2
(
t
)
0 5 10 15
500
0
500
1000
1500
time [s]
u
(
t
)
=10
0
=10
1
=10
2
=10
3
Simulamos la respuesta del sis-
tema de lazo cerrado para cada una
de ellas.
Vemos que a menor , mejor de-
sempeo de x
2
(t) pero mayor el es-
fuerzo de control requerido.
Realizaci on p. 26/33
Ejemplo de diseo LQR
Es interesante chequear el patrn de polos de lazo cerrado obtenidos por el
controlador ptimo de alta ganancia ( = 10
3
).
Note que un polo se ubica jus-
to cancelando el cero estable
del sistema (lo que evita excesi-
vo sobre impulso), y los otros 3
se distribuyen como en un ltro
Butterworth.
4 3.5 3 2.5 2 1.5 1 0.5 0 0.5 1
2
1.5
1
0.5
0
0.5
1
1.5
2
0.22 0.42 0.6 0.74 0.84
0.91
0.96
0.99
0.22 0.42 0.6 0.74 0.84
0.91
0.96
0.99
0.5 1 1.5 2 2.5 3 3.5 4
PoleZero Map
Real Axis
I
m
a
g
i
n
a
r
y

A
x
i
s
Realizaci on p. 27/33
Realimentacin de estado ptima LQ discreta
El criterio de desempeo cuadrtico para sistemas de tiempo discreto es
J
0,N
= x
T
N
Sx
N
+
N1

k=0
x
T
k
Qx
k
+u
T
k
Rx
k
donde por simplicidad notacional escribimos x
k
para representar x[k]. Cuando el
tiempo nal N (el horizonte de optimizacin) se ja a N = obtenemos un
problema de control ptimo de horizonte innito . En este caso, para estabilidad,
requerimos que lm
N
x
N
= 0 ,
J
0,
=

k=0
x
T
k
Qx
k
+u
T
k
Rx
k
Para sistemas de tiempo discreto hay un resultado paralelo al LQR de tiempo
continuo. El control ptimo se encuentra tambin via realimentacin de estado,
pero se requiere resolver una ecuacin de Riccati diferente.
Realizaci on p. 28/33
Realimentacin de estado ptima LQ discreta
Teorema:
Sea
J =

k=0
[x
T
k
Qx
k
+u
T
k
Rx
k
]
Entonces el control ptimo est dado por la ley de realimentacin de estado
k = Kx
k
u con K = (R + B
T
PB)
1
B
T
PA y donde P es la solucin de la
ecuacin algebraica de Riccati discreta (EARD)
A
T
PAP A
T
PB(R +B
T
PB)
1
B
T
PA+Q = 0
Realizaci on p. 29/33
Realimentacin de estado ptima LQ discreta
Como en el caso continuo, bajo algunas asunciones razonables existe una
solucin nica denida positiva P. Adems, el sistema de lazo cerrado
correspondiente es estable (ABK tiene sus autovalores en el crculo unitario).
En MATLAB K y P se pueden calcular usando
[K,P] = dlqr(A,B,Q,R)
Escogiendo
Q = C
T
C y R = I
se obtiene,
J =

k=0
[||y
k
||
2
+||u
k
||
2
]
Como antes, puede usarse como un parmetro simple de sintona para equili-
brar el desempeo de la salida contra la accin de control.
Realizaci on p. 30/33
Estimacin de estado ptima LQE
Ahora consideremos los observadores de estado ptimos lineales cuadrticos. El
problema del observador ptimo LQ es dual al problema de realimentacin de
estado LQ. No obstante, los observadores ptimos LQ tienen una interpretacin
estocstica , en el sentido en que son ptimos estimando el estado en presencia
de ruidos Gaussianos corrompiendo las medidas de las salidas y el estado.
Suponga que introducimos procesos de
ruido al estado y salida, w y v, de modo
que
x = Ax +Bu +w
y = Cx +v
Las seales w y v son procesos Gaus-
sianos estocsticos de media cero no cor-
relacionados en el tiempo y el uno al otro.
poseen las siguientes covarianzas:
E(ww
T
) = W y E(vv
T
) = V
A LC
B
A

x(t)
C
u(t)

L
B
^x(t)
y(t)
w(t)
v(t)
Observer
other.
Realizaci on p. 31/33
Estimacin de estado ptima LQE
Podemos disear un observador ptimo LQ

x = A x +Bu +L(y C x)
Con L dada por,
L = PC
T
V
1
donde P es la solucin del la EAR
AP +PA
T
PC
T
V
1
CP +W = 0
Es usual tratar a W y V como parmetros de diseo. Por ejemplo, es comn
asignar W = BB
T
(para que w efectivamente sea una seal de ruido de entrada)
y V = I
Realizaci on p. 32/33
Estimacin de estado ptima LQE
Altos valores relativos de W llevan a L grandes, de modo que se da ms peso a la
seal de salida y, mientras que valores relativos altos de V llevarn a L pequeos,
de modo que se da ms peso a la seal de entrada u. Podemos pensar en esto
como que valores altos de V otorgan ms conanza al modelo, dando dinmicas
del observador realimentado ms lentas.
Tal estimador de estado ptimo LQ se conoce como (en rgimen permanente)
ltro de Kalman. En MATLAB, L y P se pueden calcular como
[L,P] = lqr(A,C,W,V);
Realizaci on p. 33/33

Você também pode gostar