Appearance
求解泛函方程
相当于确定最优策略 (u―j∗,⋯,u―n∗) ,这一策略使得从状态 x―j−1 开始,由全过程 P 的最后 n−j+1 级组成的子过程 Pj 的费用函数达到极小,即
初始状态为 x―j−1 的子过程 Pj 的最优策略与已经将 P 驱动至状态 x―j−1 的前 j−1 级的决策 (u―j,⋯,u―n) 无关. 为了确定 ϕj(x―j−1) ,需要知道值 ϕj+1(x―j) . 现在,如果 (u―j∗,⋯,u―n∗) 是 Pj 的最优策略,则显然 (u―j+1∗,⋯,u―n∗) 是初始状态为 x―j=gj(x―j−1,u―j∗) 的子过程 Pj+1 的最优策略. 这个命题在贝尔曼最优性原理中被进一步推广为贝尔曼原理.
贝尔曼原理 如果 (u―1∗,⋯,u―n∗) 是过程 P 的最优策略,而 (x―0∗,⋯,x―n∗) 是相应的状态序列,则对于每个子过程 Pj,j=1(1)n ,在初始状态 x―j−1∗ 下,策略 (u―j∗,⋯,u―n∗) 也是最优的.