最优控制理论读书报告.docx

资源描述

最优控制理论读书报告.docx

《最优控制理论读书报告.docx》由会员分享，可在线阅读，更多相关《最优控制理论读书报告.docx（36页珍藏版）》请在冰点文库上搜索。

最优控制理论读书报告.docx

最优控制理论读书报告

第一章最优控制问题与极大值原理

最优控制问题具有广泛性、多样性及重要性，它可以应用到不同的领域中，例如升降机的最快升降问

题、防天拦截问题、雷达跟踪问题及生产库存控制问题等等。

通过对这些问题的研究，我们可以看出它们

都具有如下共同的特点：

（1）都有一个被控对象。

它通常是由常微分方程组描述的动态模型来表征的，即

其中

x ∈ Rn 是状态量，

⎧ &= f （x,u,t）,t ∈[t0 ,t f ]

⎨

u ∈Ur ⊆ Rr 是控制量，

（1.1）

t ∈[t0 ,t f ] 是时间变量，

f :

Rn ⨯Ur ⨯[t0 ,t f ] → Rn , r, n ∈ Z *, r ≤ n 是描述被控对象动态特征的矢值函数， t0 ,t f 分别是初始和终端时刻，

通常 t0 为定值，而 t f 可为定值，也可待求。

通常假设：

对有限时间区间[t0 ,t f ] 给定的任一分段连续矢值函数

u（t） ∈Ur ，（1.1）都存在唯一解。

（2）都要求把被控系统的初态 x0 通过控制作用，在某个终端时刻 t f > t0 引导到某个终端状态 x（t f ）。

通

常要求终端状态 x（t f ）属于 Rn 中某个点集 S ， S 称为目标集，且

S :

= {x g（x（t f ）,t f ） = 0, g ∈ R p , p ≤ n}

（3）都有一个容许控制集合。

容许控制集合U[t0 ,tf ] 为

U[t0 ,tf ] :

= {u（t） u（t） = （u1（t）,u2 （t）,L ,ur （t））T ,ui （t）是定义在[t0 ,t f ] 上的分段连续函数， i = 1, 2,L , r;

u（t） ∈Ur , 且把（1.1）的初态 x0 在终端时刻 t f 引导到目标集 S 上}

（1.2）

（1.3）

（4）都有一个表征系统品质优劣的性能指标。

由于它是一个依赖控制函数 u（t）的“函数”，又称为性能

指标泛函或代价泛函。

记为 J[u（⋅）] ，它是一个依赖于控制 u（⋅）的有限实数，即

-∞ < J[u（⋅）] < +∞

一般说 J[u（⋅）] 的表达式中既应包含依赖于终端时刻 t f 和终端状态 x（t f ）的末值型项，又应包含依赖于整个控

制过程的积分型项，即

J[u（⋅）] = K （x（t f ）, t f ） + ⎰ L（x（t）, u（t）, t）dt

t f

（1.4）

其中 K ∈ R1, L ∈ R1 ，即 K , L 皆为标量函数。

x（t）是（1.1）和 x（t0 ） = x0 对应于控制 u（t）的解，又称为轨线。

问题，否则为时变系统的最优控制问题；当目标集仅含一个固定点时为固定端点问题；当时为自SSR=

1[ （）]（（）, ）{ （（）, （）, ）（）[ （）（ , , ）]}TffJ uK x ttL x t u t tt x tf x u tdtψ⋅ =++-⎰&

归纳起来最优控制问题可叙述为：

寻求一个容许控制 u（t） ∈U[t0 ,tf ] ，使得系统（1.1）在该控制作用下从初

态 x（t0 ） = x0 出发，在某个大于 t0 的终端时刻 t f 达到目标集 S 上，且使性能指标 J[u（⋅）] 达到极小（若要求性

能指标达到极大时，只要讨论 J ' = -J[u（⋅）] 的极小便可）。

如果最优控制有解即使（1.4）达到极小的控制函数

存在，记为 u * （t）,t ∈[t0 ,t f ] 。

u * （t）称为最优控制，与 u * （t）相对应的系统（1.1）的解 x * （t）称为最优轨线，相

应的性能指标 J* = J[u * （t）] 称为最优性能指标，（u * （t）, x * （t））称为最优控制问题（1.1）~（1.4）的最优解。

从最

优控制问题的叙述可知

J* @J[u * （t）] ≤ J[u（t）], ∀u（t） ∈U[t0 ,tf ] 。

在最优控制问题中，根据涉及的函数 f （...）, g（..）, K （..）, L（...）的不同，有几种不同的称谓。

例如

K （..） = 0, L（...） = 1 时为快速控制问题；当 f （...）, g（..）, K （..）, L（...）都不显含 t, t f 时为定常系统的最优控制

由端点问题；当 t f 固定时为固定终端时刻问题，否则为终端时刻自由问题；当 L（...） = 0, K （..） ≠ 0 时为末值

指标；当 L（...） ≠ 0, K （..） = 0 时为积分型指标；当 L（...） ≠ 0, K （..） ≠ 0 时为混合型指标。

虽然最优控制问题

的指标有混合型、末值型和积分型三种，但在某些条件下，三种指标是可以相互转换的，这种相互转换在

理论研究上是很有意义的，例如在最优控制问题的几何解释时就会用到这种转换。

以下我们分别介绍不同

条件下的最优控制问题。

一控制量不受约束的最优控制问题

控制量不受约束的最优控制问题是指在前面最优控制问题的叙述中，控制量的取值范围不受约，即

u ∈ Rr 或 u ∈U r ,Ur 为 Rr 中的开集。

设最优控制问题叙述中所涉及的函数 f （...）, g（..）, K （..）, L（...）关于变

元都是二次连续可微的。

1 终端时刻 t f 固定，终端状态 x（t f ）自由

终端时刻固定是指 t f 是已知的，终端状态自由是指 x（t f ）不受任何约束，即 x（t f ） ∈ Rn 。

然后利用

J[u * （t）] ≤ J[u（t）], ∀u（t） ∈U[t0 ,tf ]

来讨论最优控制所应满足的必要条件，即如果最优解（u * （t）, x * （t））存在，（u * （t）, x * （t））所应满足的条件。

通过引入拉格朗日乘子矢值函数ψ （t） = [ψ 1 （t）,ψ 2 （t）,L ,ψ n （t）]T ∈ Rn ，将求 J[u（⋅）] 的条件极小问题化为求

t f

的无条件极小值问题。

其中 ψ （t）为待定的矢值函数。

利用分部积分，并且取哈密顿函数

H （x, u,ψ , t） = -L（x, u, t） +ψ T f （x, u, t）。

通过对 J1[u（⋅）] 的变分计算，我们得到最优控制问题中

[x *（t）, u *（t）,ψ （t）] 所应满足的必要条件：

（1） &*（t） = f （x *（t）, u *（t）, t） =

∂H （x *（t）, u *（t）,ψ （t）, t）

∂H

∂ψ T

|* ，

x *（t0 ） = x0 ，

ψ& （t） = -

∂H

∂x

|* =

∂L（x *（t）, u *（t）, t）

∂x

-ψ T （t）

∂f （x *（t）, u *（t）, t）

∂x

，

∂K （x *（t f ）, u *（t f ））

ψ T （t f ） = -

∂x

（2）在 u *（t）的一切连续时刻上皆有

。

∂H （x *（t）, u *（t）,ψ （t）, t）

∂u

= 0 ，

∂2H （x *（t）, u *（t）,ψ （t）, t）

∂u2

≤ 0 ，故哈

密顿函数 H （x, u,ψ , t） = -L（x, u, t） +ψf （x, u, t）作为 u 的函数在 u *（t）处取得极大。

当 f （...）, L（...）不

显含 t 时，有 H （x *（t）, u *（t）,ψ （t）, t） = H （x *（t f ）, u *（t f ）,ψ （t f ）, t f ） = 常量。

2 终端时刻 t f 固定，终端状态 x（t f ）受约束

设 x（t f ） ∈ S ，即 g（x（t f ）,t f ） = 0 。

此时的最优控制问题是在约束（1.1）和（1.2）条件下求（1.4）的极小问题。

如前，通过引进拉格朗日乘子矢值函数ψ （t） ∈ Rn 和拉格朗日乘子 μ ∈ R p ，将求 J[u（⋅）] 的条件极小问题化为

求

t f

优控制问题中 x *（t）, u *（t）,ψ （t）, μ 所应满足的必要条件：

（1） &*（t） = f （x *（t）, u *（t）, t）， x *（t0 ） = x0 。

（2）

ψ& （t） = -

∂H （x *（t）, u *（t）,ψ （t）, t）

∂x

∂K （x *（t f ）, t f ）

∂x

- μT

∂g（x *（t f ）, t f ）

∂x

。

（3）在 u *（t）的一切连续时刻 t ∈[t0 , t f ] 上皆有

∂H （x *（t）, u *（t）,ψ （t）, t）

∂u

= 0 ，

∂2H （x *（t）, u *（t）,ψ （t）, t）

∂u2

≤ 0

∀t ∈[t0 , t f ] 。

⎰ [-

（4） H（x*（t）,u*（t）,ψ （t）,t） = H（x*（t f ）,u*（t f ）,ψ （t f ）,t f ） +

∂L（x*（t）,u*（t）,t）

∂t

+ψ T （t）

∂f （x*（t）,u*（t）,t）

∂t

]dt

3 终端时刻 t f 自由与控制量不受约束的极大值原理

3.1 终端状态 x（t f ）自由

用类似于 1 中的方法，可得到该条件下最优控制问题中[x *（t）, u *（t）,ψ （t）] 所应满足的必要条件：

（1） &*（t） = f （x *（t）, u *（t）, t）， x *（t0 ） = x0 ，

（2）

ψ& （t） = -

∂H （x *（t）, u *（t）,ψ （t）, t）

∂x

∂K （x *（t f ）, t f *）

∂x

。

（3）在 u *（t）的一切连续时刻 t ∈[t0 , t f ] 上皆有

∂H （x *（t）, u *（t）,ψ （t）, t）

∂u

= 0 ，

H（x*（t）,u*（t）,ψ （t）,t） = H（x*（tf *）,u*（tf *）,ψ （tf *）,tf *） + ⎰ [-

∂2H （x *（t）, u *（t）,ψ （t）, t）

∂u2

（4）故哈密顿函数沿最优轨线有

≤ 0

∀t ∈[t0 , t f *] 。

tf *

∂L（x*（t）,u*（t）,t）

∂t

+ψT （t）

∂f （x*（t）,u*（t）,t）

∂t

]dt

H（x*（tf *）,u*（tf *）,ψ （tf *）,tf *） =

∂K（x*（tf *）,tf *）

∂tf

当 f （...）, L（...）, K （..）不显依赖于时间 t 时，有 H （x *（t）, u *（t）,ψ （t）, t） = 0 。

3.2 终端状态 x（t f ）受约束

用类似于 2 中的方法，可得到该条件下最优控制问题中 x *（t）, u *（t）,ψ （t）, μ 所应满足的必要条件；除

了将 3.1.2 中的横截条件改为ψ（t f *） = -

∂K （x *（t f ）, t f *）

∂x

- μT

∂g（x（t f *）, t f *）

∂x

和

H（x*（tf *）,u*（tf *）,ψ （tf *）,tf *） =

∂K（x*（tf *）,tf *）

∂tf

+ μT

∂g（x*（tf *）,tf *）

∂tf

且Ur = R 。

记哈密顿函数为 H （x, u,ψ , t） = -L（x, u, t） +ψf （x, u, t）。

若（u *（t）, x *（t））为最优解，则一

其余均与 3.1 中的相同。

将以上结果综合到一起，可得到如下控制量不受约束的极大值原理：

定理 1 给定时变最优控制问题（1.1）~（1.4）。

设 f （...）, g（..）, K （..）, L（...）关于变元都是二次连续可微的，

定存在矢值函数ψ （t） ∈ R 和矢值常量μ∈ R ，使得 x *（t）, u *（t）,ψ （t）,μ一起满足：

（1） &*（t） = f （x *（t）, u *（t）, t）， x *（t0 ） = x0 ，

（2）

ψ& （t） = -

∂H （x *（t）, u *（t）,ψ （t）, t）

∂x

∂K （x *（t f ）, u *（t f ））

∂x

- μT

∂g（x *（t f ）, t f ）

∂x

（3）在 u *（t）的一切连续时刻 t ∈[t0 , t f ] 上皆有

∂H （x *（t）, u *（t）,ψ （t）, t）

∂u

= 0 ，

∂2H （x *（t）, u *（t）,ψ （t）, t）

∂u2

≤ 0

∀t ∈[t0 , t f ] 。

⎰ [-

（4） H（x*（t）,u*（t）,ψ （t）,t） = H（x*（t f ）,u*（t f ）,ψ （t f ）,t f ） +

∂L（x*（t）,u*（t）,t）

∂t

+ψ T （t）

∂f （x*（t）,u*（t）,t）

∂t

]dt

（5）若 tf 自由时，有 H（x*（tf ）,u*（tf ）,ψ （tf ）,tf ） =

∂K（x*（tf ）,tf ）

∂tf

+ μT

∂g（x*（tf ）,tf ）

∂tf

。

当 f （...）, L（...）, K （..）不

控制变量受约束是指 u（t） ⊂ Ur ⊂ R ,Ur 是有界闭集。

由于最优控制的改变量特别是其取值不能是任意

显依赖于时间 t 时，有 H （x *（t）, u *（t）,ψ （t）, t） = 常量，若 tf 固定时这个常数可能不为零，但当 tf 自由

时，这个常数一定为零。

二控制量受约束的最优控制问题——庞德里亚金极大值原理

的，因此不可能按以上所讨论方法来获得最优控制所应满足的必要条件。

虽如此，但其处理问题的思路和

某些技巧，仍然可以被用来获得控制量受约束条件下最优控制应满足的必要条件。

由于时变最优控制问题都可以通过引入新的状态变量将其化为定常最优控制问题，故我们只给出了定

常最优控制问题的极大值原理。

定常最优控制问题可叙述如下：

状态方程为

&= f （x,u）, x（t0 ） = x0

其中 x ∈ Rn 是状态， u ∈ Rr 是控制， f ∈ Rn 。

目标集为

（x（t f ））自由

容许控制集合

U[t0 ,tf ] :

= {u（t） u（t）的分量为分段连续函数，且 u（t） ∈Ur ⊆ Rr ,Ur 为有界闭集}。

记与 u（t）对应的轨线 x（t），它满足 x（t0 ） = x0

性能指标为

（1.5）

（1.6）

（1.7）

J[u（⋅）] = K （x（t f ）） + ⎰ L（x（t）,u（t））dt

关于定常最优控制问题（1.5）~（1.8）作如下假设：

设

（1） f （x,u）, L（x,u）, K （x）关于变元是连续的，而关于 x 是连续可微的。

（1.8）

（2） f （x,u）,,

∂x∂x

都是有界的。

我们分别就终端时刻 t f 固定与自由两种情况进行了讨论，从而得到定常最优控制问题的极大值原理（庞

德里亚金极大值原理）。

1 定常最优控制问题的极大值原理（庞德里亚金极大值原理）

给定定常最优控制问题（1.5）~（1.8）和目标集 g（x（t f ）） = 0 。

设 u（t） ∈Ur ⊆ Rr ,Ur 为有界闭集且

（1） f （x,u）, L（x,u）, K （x）, g（x）关于其变元是连续的，关于 x 是连续可微的。

（2） f （x,u）,,

∂x∂x

记哈密顿函数为

都是有界的。

H （x,u,ψ ） = -L（x,u） +ψ T f （x,u）

若（u* （t）, x* （t））是最优解，则必存在 n 维矢值函数ψ （t） ∈ Rn 和 p 维常矢值 μ ∈ R p ，使得 x* （t）,u* （t）,ψ （t）

和 μ 一起满足：

（1） & （t） = f （x* （t）,u* （t））, x* （t0 ） = x0

（2） ψ& （t） = -

∂H （x* （t）,u* （t）,ψ （t））

∂x

ψ T （t f ） = -

∂K （x* （t f ））

∂x

- μT

∂g（x* （t f ））

∂x

（3）对 u* （t）在[t0 ,t f ] 上的一切连续时刻 t 上有

H （x* （t）,u* （t）,ψ （t）） = max H （x* （t）,u,ψ （t））

u∈Ur

（4） H （x* （t）,u* （t）,ψ （t））作为 u 的函数沿着最优控制 u* （t）恒为常数，即

H （x* （t）,u* （t）,ψ （t）） = 常量, ∀t ∈[t0 ,t f ]

当终端时刻 t f 固定时，这个常数可能不为零；但当 t f 自由时，这个常数必为零。

由于时变最优控制问题都可以通过引入新的状态变量将其化为定常最优控制问题，故我们可直接给出

时变最优控制问题的极大值原理。

2 时变最优控制问题的极大值原理（庞德里亚金极大值原理）

给定时变最优控制问题：

f （x,u,t）, L（x,u,t）, g（x（t f ）,t f ）, K （x（t f ）,t f ）。

设：

（1） f （x,u,t）, L（x,u,t）, g（x,t）, K （x,t）关于其变元是连续的，关于变元 x,t 是连续可微的。

（2） f （x,u,t）,,,

∂x∂t∂x∂t

记哈密顿函数为

都是有界的。

H （x,u,ψ ,t） = -L（x,u,t） +ψ T f （x,u,t）

如果 u（t） ∈Ur ⊆ Rr ,Ur 为有界闭集且（u* （t）, x* （t））是最优解，则一定存在矢值函数ψ （t） ∈ Rn 和常值矢量

μ ∈ R p ，使得 x* （t）,u* （t）,ψ （t）, μ 一起满足：

（1） x* （t） = f （x* （t）,u* （t）,t）, x* （t0 ） = x0

（2） ψ& （t） = -

∂H （x* （t）,u* （t）,ψ （t）,t）

∂x

ψ T （t f ） = -

∂K （x* （t f ）,t f ）

∂x

- μT

∂g（x* （t f ）t f ）

∂x

（3）对 u* （t）在[t0 ,t f ] 上的一切连续时刻 t 上有

H （x* （t）,u* （t）,ψ （t）,t） = max H （x* （t）,u,ψ （t）,t）

u∈Ur

（4）哈密顿函数沿最优解具有性质

H （x* （t）,u* （t）,ψ （t）,t） = H （x* （t f ）,u* （t f ）,ψ （t f ）,t f ） + ⎰

当终端时刻 t f 自由时有

∂H （x* （t）,u* （t）,ψ （t）,t）

∂t

H （x* （t f ）,u* （t f ）,ψ （t f ）,t f ） =

∂K （x* （t f ）,t f ）

∂t f

+ μT

∂g（x* （t f ）,t f ）

∂t f

当终端时刻 t f 固定时 H （x* （t f ）,u* （t f ）,ψ （t f ）,t f ）无明确解析表达式。

三与极大值原理应用有关的几个问题

通常称满足极大值原理的控制和轨线为极值控制和极值轨线。

极值控制和极值轨线称为极值解。

如果

已知最优控制存在且唯一，而极值控制又只有一个，则这个极值解就是最优解。

但是极大值原理只是最优

控制应满足的必要条件，因此极值控制不一定是最优控制。

所以需要讨论最优控制的充分条件。

1 最优控制的充分条件

定理 2 给定最优控制问题

状态方程

x（

&t） = A（t）x（t） + f （u（t）,t）, x（t0 ） = x0

容许控制集合

U[t0 ,tf ] :

= {u（t） | u（t）的分量为 t 的分段连续函数， u（t） ∈U r ⊂ Rr ,U r 为有界闭集}

（1.9）

（1.10）

性能指标

J[u（⋅）] = cT x（t f ） + ⎰ [ pT （t）x（t） + L（u（t）,t）]dt

（1.11）

其中 A（t） ∈ Rn⨯n 和 p（t） ∈ Rn 分别是已知 t 的连续阵值和矢值函数； c ∈ Rn 是常矢量， f （u,t）和 L（u,t）关于变

元是连续的，关于 t 是连续可微的； t f 是固定的。

记

H （x,u,ψ ,t） = - pT （t）x - L（u,t） +ψ T A（t）x +ψ T f （u,t）

设 u* （t） ∈U[t0 ,tf ] ，相应轨线为 x* （t），且满足

&（t） = A（t）x* （t） + f （u* （t）,t）, x* （t0 ） = x0

而ψ （t） ∈ Rn 满足

ψ& （t） = -

如果 u* （t）, x* （t）,ψ （t）一起满足

∂H

∂x *

= pT （t） -ψ T （t） A（t）,ψ T （t f ） = -cT

H （x* （t）,u* （t）,ψ （t）,t） = max H （x* （t）,u,ψ （t）,t）

u∈Ur

即 x* （t）,u* （t）,ψ （t）满足极大值原理的所有条件，则 u* （t）必是最优控制。

对给定的最优控制问题，能利用极大值原理求解其最优控制的先决条件是其最优控制的存在性，但并

不是所有的最优控制问题都存在最优控制。

实际上在所有的最优控制问题中，最优控制不存在的情况可分

为两类：

（1）给定状态方程、目标集和控制约束后，通过分析可得其容许控制集合U[t0 ,tf ] = ∅ 。

由于容许控制不

存在，当然就不会存在最优控制了。

它反映了关于最优控制问题的提法是不合理的。

（2）虽然控制问题的提法是合理的，即容许控制集合U[t0 ,tf ] ≠ ∅ ，但最优控制确实不存在。

2 极小值原理

最优控制所应满足的必要条件，除了极大值原理原理外，还有极小值原理。

实际上，只要注意到两种

叙述中哈密顿函数和共轭方程的终端条件的区别，可知这两种叙述是等价的。

现在我们以时变最优控制问

题的极大值原理为例来叙述其相对应的极小值原理。

定理 3 最优控制所应满足的必要条件——极小值原理

给定时变最优控制问题：

f （x,u,t）, L（x,u,t）, K （x（t f ）,t f ）, g（x（t f ）,t f ）。

设：

（1） f （x,u,t

展开阅读全文