18.2.5 无约束问题的解法

考虑一般的优化问题

\begin{matrix} (18.72) & f (\underset{―}{x}) = min!, \underset{―}{x} \in R^{n}, \end{matrix}

这里 $f$ 是连续可微函数. 本节描述的每一种方法一般是构建一无穷序列 ${{\underset{―}{x}}^{k}} \subset R^{n}$ , 其聚点是一平稳点. 这个点列将从 ${\underset{―}{x}}^{1}$ 开始,按照如下递推公式构建:

\begin{matrix} (18.73) & {\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} + α_{k} {\underset{―}{d}}^{k} (k = 1, 2, \dots), \end{matrix}

即首先在 ${\underset{―}{x}}^{k}$ 处确定一方向 ${\underset{―}{d}}^{k}$ ,而步长 $α_{k}$ 表示在 ${\underset{―}{x}}^{k}$ 沿 ${\underset{―}{d}}^{k}$ 方向离 ${\underset{―}{x}}^{k + 1}$ 有多远. 这样的方法称作下降法, 是指

\begin{matrix} (18.74) & f ({\underset{―}{x}}^{k + 1}) < f ({\underset{―}{x}}^{k}) (k = 1, 2, \dots) . \end{matrix}

等式 $\nabla f (\underset{―}{x}) = 0$ 刻画平稳点,并且可以用作迭代算法的停止规则,其中 $\nabla$ 表示梯度算子 (参见第 933 页 13.2.6.1).

18.2.5.1 最速下降法

从现时点 ${\underset{―}{x}}^{k}$ 出发,函数下降最快速的方向是

\begin{matrix} (18.75a) & {\underset{―}{d}}^{k} = - \nabla f ({\underset{―}{x}}^{k}), \end{matrix}

从而,

\begin{matrix} (18.75b) & {\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} - α_{k} \nabla f ({\underset{―}{x}}^{k}) . \end{matrix}

最速下降法以 $f (\underset{―}{x}) = f ({\underset{―}{x}}^{i})$ 为水平线的示意图见图 18.6.

01936af3-1230-7a0e-9a4a-8542777881ce_31_543_1081_555_301_0.jpg

步长 $α_{k}$ 由线搜索确定,即 $α_{k}$ 是一维问题

\begin{matrix} (18.76) & f ({\underset{―}{x}}^{k} + α {\underset{―}{d}}^{k}) = min!, α \geq 0 \end{matrix}

的解. 上述问题可以用 1208 页 18.2.4 给出的方法求解.

最速下降法(18.75b)收敛得相当慢. 对于序列 ${{\underset{―}{x}}^{k}}$ 的每个聚点 ${\underset{―}{x}}^{*}$ ,有 $\nabla f ({\underset{―}{x}}^{*}) = 0$ . 在二次目标函数情形下,即 $f (\underset{―}{x}) = {\underset{―}{x}}^{T} C \underset{―}{x} + {\underset{―}{p}}^{T} \underset{―}{x}$ ,该方法取如下特殊形式:

\begin{matrix} (18.77a) & {\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} + α_{k} {\underset{―}{d}}^{k}, \end{matrix}

其中

\begin{matrix} (18.77b) & {\underset{―}{d}}^{k} = - (2 C {\underset{―}{x}}^{k} + \underset{―}{p}), 且 α_{k} = \frac{{\underset{―}{d}}^{k^{T}} d^{k}}{2 {\underset{―}{d}}^{k^{T}} C {\underset{―}{d}}^{k}} . \end{matrix}

18.2.5.2 牛顿法的应用

假定在当前的近似点 ${\underset{―}{x}}^{k}$ 处,函数 $f$ 由如下二次函数逼近:

\begin{matrix} (18.78) & q (\underset{―}{x}) = f ({\underset{―}{x}}^{k}) + {(\underset{―}{x} - {\underset{―}{x}}^{k})}^{T} \nabla f ({\underset{―}{x}}^{k}) + \frac{1}{2} {(\underset{―}{x} - {\underset{―}{x}}^{k})}^{T} H ({\underset{―}{x}}^{k}) (\underset{―}{x} - {\underset{―}{x}}^{k}) . \end{matrix}

这里 $H ({\underset{―}{x}}^{k})$ 是黑塞矩阵,即 $f$ 在 ${\underset{―}{x}}^{k}$ 处的二阶偏导数矩阵. 如果 $H ({\underset{―}{x}}^{k})$ 是正定的,则 $q (\underset{―}{x})$ 在 ${\underset{―}{x}}^{k + 1}$ 处达到绝对极小,且 $\nabla q ({\underset{―}{x}}^{k + 1}) = 0$ ,从而得到牛顿方法:

\begin{matrix} (18.79a) & {\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} - H^{- 1} ({\underset{―}{x}}^{k}) \nabla f ({\underset{―}{x}}^{k}) (k = 1, 2, \dots), \end{matrix}

即

\begin{matrix} (18.79b) & {\underset{―}{d}}^{k} = - H^{- 1} ({\underset{―}{x}}^{k}) \nabla f ({\underset{―}{x}}^{k}), 且 α_{k} 见 (18.73). \end{matrix}

牛顿法收敛速度快, 但它也有如下缺点:

a) 矩阵 $H ({\underset{―}{x}}^{k})$ 必须是正定的.

b) 该方法仅对充分好的初始点收敛.

c) 步长可能没有影响.

d) 该方法并不是一种下降法.

e) 计算逆矩阵 $H^{- 1} ({\underset{―}{x}}^{k})$ 的计算量相当大.

通过所谓的阻尼牛顿法可能会适当减少某些缺点 (例如 1251 页 19.2.2.2):

\begin{matrix} (18.80) & {\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} - α_{k} H^{- 1} ({\underset{―}{x}}^{k}) \nabla f ({\underset{―}{x}}^{k}) (k = 1, 2, \dots), \end{matrix}

其中的松弛因子 $α_{k}$ 比如可以通过前面给出的原则来确定 (参见第 1210 页 18.2.5.1).

18.2.5.3 共轭梯度法

两个向量 ${\underset{―}{d}}^{1}, {\underset{―}{d}}^{2}$ 称作相对于对称正定矩阵 $C$ 是共轭向量,是指它们满足

\begin{matrix} (18.81) & {\underset{―}{d}}^{1^{T}} C {\underset{―}{d}}^{2} = 0. \end{matrix}

如果 ${\underset{―}{d}}^{1}, {\underset{―}{d}}^{2}, \dots, {\underset{―}{d}}^{n}$ 相对于矩阵 $C$ 是两两共轭的,那么凸二次问题 $q (\underset{―}{x}) = {\underset{―}{x}}^{T} C \underset{―}{x} +$ ${\underset{―}{p}}^{T} \underset{―}{x}, \underset{―}{x} \in R^{n}$ 可以通过 $n$ 步求解,为此只要从 ${\underset{―}{x}}^{1}$ 出发构建序列 ${\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} + α_{k} {\underset{―}{d}}^{k}$ , 其中 $α_{k}$ 是最优步长. 假设 $f (\underset{―}{x})$ 在 ${\underset{―}{x}}^{*}$ 的邻域内是近似二次函数,即 $C \approx \frac{1}{2} H ({\underset{―}{x}}^{*})$ , 则为二次目标函数研发的方法也可应用于更一般的函数 $f (\underset{―}{x})$ ,而无须明着使用矩阵 $H ({\underset{―}{x}}^{*})$ .

共轭梯度法分如下几个步骤:

**a) ${\underset{―}{x}}^{1} * * \in R^{n}, {\underset{―}{d}}^{1} = - \nabla f ({\underset{―}{x}}^{1})$ ,其中 ${\underset{―}{x}}^{1}$ 是 ${\underset{―}{x}}^{*}$ 的一个适当的初始近似. (18.82)

**b) ${\underset{―}{x}}^{k * * + 1} = {\underset{―}{x}}^{k} + α_{k} {\underset{―}{d}}^{k} (k = 1, \dots, n)$ ,其中 $α_{k} \geq 0$ 使得 $f ({\underset{―}{x}}^{k} + α {\underset{―}{d}}^{k})$ 达到极小.(18.83a)

\begin{matrix} (18.83b) & {\underset{―}{d}}^{k + 1} = - \nabla f ({\underset{―}{x}}^{k + 1}) + μ_{k} {\underset{―}{d}}^{k} (k = 1, \dots, n - 1), \end{matrix}

其中

\begin{matrix} (18.83c) & μ_{k} = \frac{\nabla f {({\underset{―}{x}}^{k + 1})}^{T} \nabla f ({\underset{―}{x}}^{k + 1})}{\nabla f {({\underset{―}{x}}^{k})}^{T} \nabla f ({\underset{―}{x}}^{k})}, {\underset{―}{d}}^{n + 1} = - \nabla f ({\underset{―}{x}}^{n + 1}) . \end{matrix}

c) 用 ${\underset{―}{x}}^{n + 1}$ 和 ${\underset{―}{d}}^{n + 1}$ 代替 ${\underset{―}{x}}^{1}$ 和 ${\underset{―}{d}}^{1}$ ,重复步骤 b).

18.2.5.4 戴维顿 (Davidon)、弗莱彻 (Fletcher) 和鲍威尔 (Powell)(DFP) 方法

在 DFP 方法中,从 ${\underset{―}{x}}^{1}$ 出发的点列根据下列公式确定:

\begin{matrix} (18.84) & {\underset{―}{x}}^{k + 1} = {\underset{―}{x}}^{k} - α_{k} M_{k} \nabla f ({\underset{―}{x}}^{k}) (k = 1, 2, \dots), \end{matrix}

这里 $M_{k}$ 是对称正定矩阵. 在 $f$ 为二次函数的情形下,这一方法的想法是逆黑塞矩阵由矩阵 $M_{k}$ 逐步近似. 从对称正定矩阵 $M_{1}$ ,例如, $M_{1} = I (I$ 为单位矩阵) 出发, $M_{k}$ 由 $M_{k - 1}$ 加上一个 2 秩修正矩阵确定:

\begin{matrix} (18.85) & M_{k} = M_{k - 1} + \frac{{\underset{―}{v}}^{k} {\underset{―}{v}}^{k^{T}}}{{\underset{―}{v}}^{k^{T}} {\underset{―}{v}}^{k}} - \frac{(M_{k - 1} {\underset{―}{w}}^{k}) {(M_{k - 1} {\underset{―}{w}}^{k})}^{T}}{{\underset{―}{w}}^{k^{T}} M_{k} {\underset{―}{w}}^{k}}, \end{matrix}

其中 ${\underset{―}{v}}^{k} = {\underset{―}{x}}^{k} - {\underset{―}{x}}^{k - 1}, {\underset{―}{w}}^{k} = \nabla f ({\underset{―}{x}}^{k}) - \nabla f ({\underset{―}{x}}^{k - 1}) (k = 2, 3, \dots)$ . 步长 $α_{k}$ 从求解下列优化问题得到:

\begin{matrix} (18.86) & f ({\underset{―}{x}}^{k} - α M_{k} \nabla f ({\underset{―}{x}}^{k})) = min!, α \geq 0. \end{matrix}

如果 $f (\underset{―}{x})$ 是二次函数,则 DFP 方法变成共轭梯度法,相应的初始 $M_{1} = I$ .

18.2.5 无约束问题的解法 ​

18.2.5.1 最速下降法 ​

18.2.5.2 牛顿法的应用 ​

18.2.5.3 共轭梯度法 ​

18.2.5.4 戴维顿 (Davidon)、弗莱彻 (Fletcher) 和鲍威尔 (Powell)(DFP) 方法 ​

18.2.5 无约束问题的解法

18.2.5.1 最速下降法

18.2.5.2 牛顿法的应用

18.2.5.3 共轭梯度法

18.2.5.4 戴维顿 (Davidon)、弗莱彻 (Fletcher) 和鲍威尔 (Powell)(DFP) 方法