Skip to content

18.3.1 离散动态决策模型

很大一类优化问题可以用动态规划法求解. 我们把这样的优化问题看作自然地或形式上按时间行进的过程, 并且它由依赖时间的决策所控制. 如果这一过程可以分解成有穷或可数无穷多步,则它称为离散动态规划. 本节仅讨论 n 级离散过程.

18.3.1.1 n 级决策过程

一个 n 级过程 P 从 0 级初始状态 xa=x0 开始,通过中间状态 x1,x2, , xn1 直到进入最终状态 xn=xeXeRm . 状态向量 xj 在状态空间 XjRm 中. 为了将状态 xj1 驱动到状态 xj ,要求找一个决策 uj . 在状态 xj1 处所有可能的决策向量 uj 构成决策空间 Uj(xj1)Rs . 从 xj1 出发,可以通过如下变换得到下一个状态 xj (图 18.14):

(18.125)xj=gj(xj1,uj),j=1(1)n.

01936af3-1230-7a0e-9a4a-8542777881ce_46_378_1498_884_176_0.jpg

18.3.1.2 动态规划问题

我们的目的是确定一个策略 (u1,,un) 使得过程从初始状态 xa 驱动至状态 xe ,并考虑到所有的约束,使得目标函数或费用函数 f(f1(x0,u1),,fn(xn1, un) 达到极小. 函数 fj(xj1,uj) 称作阶段费用函数. 动态规划问题的标准形是

OF: f(f1(x0,u1),,fn(xn1,un))min !(18.126a)

(18.126b) CT: xj=gj(xj1,uj),j=1(1)n,x0=xa,xn=xeXe,xjXjRm,j=1(1)n,ujUj(xj1)Rm,j=1(1)n.}

第一种类型的约束 xj 称作动态约束,而其余约束 x0,uj 则称作静态约束. 类似于 (18.126a), 也可以考虑极大问题. 满足所有约束条件的策略称作可行约束. 如果目标函数满足某些附加要求 (参见第 1227 页 18.3.3), 则可以应用动态规划法.

version 1.24.0