Skip to content

18.3.4 贝尔曼最优性原理

求解泛函方程

(18.139)ϕj(xj1)=minujUj(xj1)Hj(fj(xj1,uj),ϕj+1(xj))

相当于确定最优策略 (uj,,un) ,这一策略使得从状态 xj1 开始,由全过程 P 的最后 nj+1 级组成的子过程 Pj 的费用函数达到极小,即

(18.140)Fj(fj(xj1,uj),,fn(xn1,un))min!

初始状态为 xj1 的子过程 Pj 的最优策略与已经将 P 驱动至状态 xj1 的前 j1 级的决策 (uj,,un) 无关. 为了确定 ϕj(xj1) ,需要知道值 ϕj+1(xj) . 现在,如果 (uj,,un)Pj 的最优策略,则显然 (uj+1,,un) 是初始状态为 xj=gj(xj1,uj) 的子过程 Pj+1 的最优策略. 这个命题在贝尔曼最优性原理中被进一步推广为贝尔曼原理.

贝尔曼原理 如果 (u1,,un) 是过程 P 的最优策略,而 (x0,,xn) 是相应的状态序列,则对于每个子过程 Pj,j=1(1)n ,在初始状态 xj1 下,策略 (uj,,un) 也是最优的.

version 1.24.0