Skip to content

18.3.5 贝尔曼泛函方程方法

18.3.5.1 最小费用的确定

基于泛函方程 (18.136),(18.137) 和 (18.138),从 ϕn+1(xn)=0 开始,每一个值 ϕj(xj1)(xj1Xj1)j 的递减顺序逐个确定. 它要求对于每一 xj1Xj1 , 最优问题的解都在决策空间 Uj(xj1) . 对于每个 xj1 ,存在一极小点 ujUj 作为从 xj1 开始的子过程 Pj 的第 1 级的最优决策. 如果诸集合 Xj 不是有限的或者它们太大,那么可以对于一组所选择的节点 xj1Xj1 ,计算相应的 ϕj 值. 其中间值可以通过某种插值方法进行计算. ϕ1(x0) 是过程 P 的费用函数的最优值. 最优策略 (u1,,un) 以及相应的状态 (x0,,xn) 可以采用如下两种方式之一来确定.

18.3.5.2 最优策略的确定

(1) 方式 1 在求解泛函方程中,每次计算 xj1Xj1 也要将计算值 uj 存储起来. 在计算 ϕ1(x0) 之后,如果从 x0=x0 和所存储的 u1=u1 确定 x1=g1(x0,u1) ,就得到最优策略. 从 x1 和存起来的 u2 得出 x2 ,等等.

(2) 方式 2 对于每个 xj1Xj1 ,仅存储 ϕj(xj1) . 在每次 ϕj(xj1) 知道后,就前向计算一次. 从 j=1x0=x0 开始,通过计算泛函方程

(18.141)ϕj(xj1)=minujUj(xj1)Hj(fj(xj1,uj),ϕj+1(gj(xj1,uj)))

j 的递增顺序逐个确定 uj . 然后得到 xj=gj(xj1,uj) . 在前向计算中,每一级都必须求解一个优化问题.

(3) 两种方式的比较 由于是前向计算, 方式 1 计算的代价要小于方式 2 所要求的代价. 然而,由于每一状态 xj1 下都要存储决策 uj ,从而在高维决策空间 Uj(xj1) 情形下,这可能需要非常大的存储量,而在方式 2 中,仅需存储 ϕj(xj1) . 因此常常在计算机上使用方式 2.

version 1.24.0