梯度下降法(gradient descent)与牛顿法(newton’s method)求解最小值

梯度下降法与牛顿法是求解最小值/优化问题的两种经典算法。本文的目标是介绍两种算法的推导思路与流程，并且从初学者的角度就一些容易混淆的话题如梯度下降法(gradient descent)与最速下降法(steepest descent)的联系与区别、牛顿求根迭代方法(Newton–Raphson method) 与牛顿法求解最小值算法的联系(来自 Andrew Ng 机器学习课程第四讲)进行说明。本文的内容将对高斯牛顿法(Gauss–Newton algorithm) ,Levenberg-Marquardt算法(LM算法)等非线性最小二乘问题解法起到引出作用。

1.梯度下降法

已知多元函数 $f(x_1,x_2,\dots,x_n)$ 在定义域上可微，如果将 $f(\mathbf{x})$ 在 $\mathbf{x}$ 处一阶泰勒展开(tayler expansion),可得到：(说明：为了编辑方便下文中统一以 $x={\begin{bmatrix} x_1,x_2,\dots,x_n \end{bmatrix}}^T$ 代替 $\mathbf{x}$ )。

$f(x+\epsilon) = f(x)+\epsilon ^T\nabla_x f + O(||\epsilon||)\approx f(x)+\epsilon ^T\nabla_x f$ 其中

$\nabla_x f ={\begin{bmatrix} \frac{\partial f}{\partial x_1},\dots,\frac{\partial f}{\partial x_n} \end{bmatrix}}^T$ 为

$f$ 在

$x$ 处的梯度向量。

这个式子我们可以解读为当 $x$ 增加 $\epsilon$ 时， $f(x)$ 增加 $\epsilon ^T\nabla_x f$ ，即 $\epsilon$ 与梯度 $\nabla_x f$ 的內积。如果我们限定 $\epsilon$ 的模长为定值，其方向怎样才能获得 $f(x+\epsilon)$ 的最小值呢？答案当然是与 $\nabla_x f$ 方向相反的时候，此时 $\epsilon ^T\nabla_x f$ 获得最小值。

我们也可以利用直觉上较好理解的爬山的例子来解释梯度下降法。假设你位于山上某一点坐标为 $\mathbf{\theta}(\theta _1,\theta _2)$ ，那么在此处(注意，是在这一点)下山最快的方向当然是沿着此处的梯度方向。

所以说，将整个故事串起来，梯度下降法的思路可以总结如下：欲求多元函数 $f(x)$ 的最小值，可以采用如下步骤：

给定初始值 $x_0$ 。
按照如下方式“下山”： $x_{i+1} = x_i-\eta\nabla_{x_i} f$ 。其中 $\eta>0$ ，在机器学习领域， $\eta$ 也被称之为学习率(learning rate)。
直到 $x$ 满足收敛条件为止。如 $\|f(x_{i+1}) – f(x_i)\|<\epsilon$ 或 $||\nabla_{x_i}f||\approx 0$ 。

学习率的重要性：

学习率作为控制下降步长的参数，影响函数下降的速度。学习率是我们根据经验确定的一个参数，因此在机器学习领域中这样的参数也被成为超参数(hyperparameter)。学习率的选取不能过大或者过小，如下图，不同的学习率导致函数不同的收敛速度，甚至可能导致函数不收敛。

1.1 梯度下降法的优势

1.时间复杂度低，在每一个迭代中，只需要计算梯度，不需要对二阶导数矩阵（即海森矩阵(Hessian Matrix)）进行计算。

2.空间复杂度低，因为梯度向量为一个 $n\times 1$ 的向量，比起Hessian Matrix来，占用存储空间小n倍。在实际应用中， $\mathbf{x}$ 的维度可能非常高。

1.2梯度下降法的局限

对于部分求解函数，梯度下降法可能会出现下降非常缓慢的情形。其收敛速度也较其他方法低（其他文献分析其收敛速度为线性，本文不作推导）。如下图，梯度下降法的路径出现了z字型。

究其原因，我认为，某一点的梯度只能作为这一点的一个极小的领域处的最快下降方向，一旦梯度变化较快，梯度下降法会出现因为学习率不合适而出现”zigzag”现象。而且，如果我们将梯度下降法与下文的牛顿法做对比，你会发现，一直沿着梯度方向下降的速度不一定是最快的。如下图：

1.3 最速下降法(steepest decent) 与梯度下降法(gradient descent)的联系

总结一下就是梯度下降法是最速下降法的一种特例。在最速下降法中，对于某一范数下 $epsilon$ 的取值根据以下原则：

$\bigtriangleup \epsilon_{nsd}=argmin_v(\nabla f(x)^T\epsilon\mid \|\epsilon\|=1)$

当我们指定的范数为欧几里得范数时，最速下降法给出的下降方向就是梯度的负方向，即梯度下降法给出的方向。

在wikipedia中说明，梯度下降法也被称为最速下降法(Gradient descent is also known as steepest descent )。

2.牛顿法

如同根据一阶泰勒展开推导出梯度下降法一样，根据二阶泰勒展开可以推导出牛顿优化法(newton’s method in optimization)。将 $f(\mathbf{x})$ 在 $\mathbf{x}$ 处一阶泰勒展开(tayler expansion),可得到：

$f(x+\epsilon) = f(x)+\epsilon ^T\nabla_x f + \frac{1}{2}\epsilon ^TH\epsilon +O(||\epsilon||^2)\approx f(x)+\epsilon ^T\nabla_x f + \frac{1}{2}\epsilon ^TH\epsilon$

如果我们将 $x$ 看做固定的已知量，将 $f$ 看做关于 $\epsilon$ 的函数，那么欲求 $f(\epsilon | x)$ 的最小值，必要条件(注意：不是冲要条件)是 $\frac{\partial f}{\partial \epsilon}=0$ 其中

$H = \begin{bmatrix}\frac{\partial^2f}{\partial x_1 \partial x_1} & \cdots & \frac{\partial^2f}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial^2f}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2f}{\partial x_n \partial x_n}\end{bmatrix}$ 称之为

$f$ 的

$Hessian$ 矩阵。因为二阶连续混合编导数具备性质

$\frac{\partial^2f}{\partial x_i \partial x_j} = \frac{\partial^2f}{\partial x_j \partial x_i}$ 因此

$Hessian$ 矩阵为对称矩阵。根据矩阵求导法则，可以得到

$\frac{\partial f}{\partial \epsilon}={\nabla_x f}^T+\epsilon^TH=0$

$\epsilon = -H^{-1}{\nabla_x f}$

可见，牛顿法的思路是将函数f在x处展开为多元二次函数，再通过求解二次函数最小值的方法得到本次迭代的下降方向 $\epsilon$ 。那么问题来了，多元二次函数在梯度为0的地方一定存在最小值么？直觉告诉我们是不一定的。以一元二次函数 $g(x)=ax^2+bx+c$ 为例，我们知道当 $a>0$ 时， $g(x)$ 可以取得最小值，否则 $g(x)$ 不存在最小值。

https://perfectmaths.wordpress.com/2011/08/20/chapter-3-%E2%80%93-quadratic-functions/

推广到多元的情况，可以得出二次项矩阵必须是正定(positive definite)的，对应上式即 $Hessian$ 为正定矩阵时，函数 $f(\epsilon | x)$ 的最小值才存在。

因此，牛顿法首先需要计算 $Hessian$ 矩阵并且判断其正定性，当 $Hessian$ 矩阵正定，此时其所有特征值均>0,当然 $Hessian$ 矩阵也是可逆的，最小值存在。

需要指出的是，当多元函数 f 本身就是二次函数并且存在最小值时，牛顿法可以一步解出最小值。

2.1 牛顿法的优点：

因为目标函数在接近极小值点附近接近二次函数，因此在极小值点附近，牛顿法的收敛速度较梯度下降法快的多。其他文献分析其收敛速度为2次收敛，本文不给出推导。下图是牛顿法应用在Rosenbrock函数上的效果：

2.2 牛顿法的缺点：

1. $Hessian$ 矩阵的计算难度非常的大。因此在高维度应用案例中，通常不会计算 $Hessian$ 矩阵。因此牛顿法也产生了很多变种，主要的思想就是采用其他矩阵近似 $Hessian$ 矩阵，降低计算复杂度。

2.牛顿法当 $Hessian$ 矩阵为正定矩阵时，最小值才存在。牛顿法经常会因为 $Hessian$ 矩阵不正定而发散(diverage)。因此牛顿法并不是非常的稳定。

2.3 牛顿法求根公式与牛顿优化法之间的联系

在说道牛顿优化方法的时候，上过《计算方法》这门课的同学经常会说，牛顿法不是用来求根的么？实际上，牛顿优化法还真可以用牛顿求根法推导得出。我看到的材料是 Andrew Ng在《机器学习课程》中给出的一种推导。在牛顿求根公式中， $f(x)=0$ 的解由迭代式

$x_{i+1}=x_{i}-\frac{f(x_i)}{f\prime(x_i)}$ 给出。在牛顿优化法中，我们欲求得梯度

$g(x)=f'(x)=0$ 对应的\(x)。

因此 $x$ 可以根据求根公式

$x_{i+1}=x_{i}-\frac{f\prime(x_i)}{f\prime\prime(x_i)}$ 求出。推广到多元函数上，

${1}/{f\prime\prime(x_i)}$ 演变为

$H^{-1}$ ，

$f\prime(x_i)$ 演变为

$\nabla_x f(x_i)$ 因此

$x_{i+1}=x_{i}-H^{-1}{\nabla_x f(x_i)}$ 与根据二阶泰勒展开并求

$f(\epsilon | x)$ 的最小值得到的结论一致。

3.参考文献：

1.gradient descent in a nutshell – towardsdatascience.com

2.Newton’s method in Optimization-wikipedia

3.Gradient Descent Method – Rochester Institute of Technology

4.Using Gradient Descent in Optimization and Learning – University Collage London

5.Difference between Gradient Descent method and Steepest Descent – stack exchange

6.In optimization, why is Newton’s method much faster than gradient descent?

15 thoughts on “梯度下降法(gradient descent)与牛顿法(newton’s method)求解最小值”

匿名 on 2018年10月24日 at 下午3:28 said:

一个文科生无意中刷到这个博客，还挺喜欢的。

Reply ↓
- whudj on 2018年11月17日 at 下午5:59 said:
  
  多谢关注！你是通过什么关键词搜到这个博客的，哈哈
  
  Reply ↓
杜文丽 on 2019年3月29日 at 下午11:57 said:

喜欢博主的网站，哈哈哈，请问是什么专业的呀？计算机吗？

Reply ↓
- whudj on 2019年3月30日 at 下午5:00 said:
  
  感谢！目前职业是程序员，大学专业不是计算机专业，不过有很多相关课程。
  
  Reply ↓
  - 陈文文 on 2020年5月8日 at 上午9:58 said:
    
    最近在搞曲线插值，找了很多方法，还是你这边的方法比较好。还有在更新吗？也是做几何相关的算法工作吗？
    
    Reply ↓
    - whudj on 2020年11月26日 at 上午11:26 said:
      
      在做，近两年工作福报修的比较多==，考虑21年开始继续进行更新。
      
      Reply ↓
匿名 on 2019年6月4日 at 下午8:14 said:

剛好在學convex optimization, 您的文章幫助很大，謝謝!

Reply ↓
- whudj on 2019年6月6日 at 下午5:00 said:
  
  很高兴能对你有帮助！
  
  Reply ↓
匿名 on 2019年7月17日 at 下午8:45 said:

看到whu感觉是校友，很喜欢“高斯牛顿”、“梯度下降”这两篇文章，点赞！

Reply ↓
- whudj on 2019年7月28日 at 下午8:08 said:
  
  谢谢校友，哈哈
  
  Reply ↓
  - 匿名 on 2019年8月13日 at 下午5:19 said:
    
    刚好在做非线性拟合，这两篇文章太好了！！感谢！！
    
    Reply ↓
匿名 on 2020年4月15日 at 下午9:16 said:

请问latex不能正常加载是怎么回事呢

Reply ↓
- 匿名 on 2020年5月14日 at 下午4:38 said:
  
  尝试多刷新下，或者搜索”wordpress latex加载“
  
  Reply ↓
匿名 on 2020年10月31日 at 下午6:17 said:

目前见过思路最清晰的牛顿法讲解

Reply ↓
匿名 on 2020年12月24日 at 上午11:04 said:

谢谢，很清楚

Reply ↓

会飞的大象

总结、反思与分享

梯度下降法(gradient descent)与牛顿法(newton’s method)求解最小值

15 thoughts on “梯度下降法(gradient descent)与牛顿法(newton’s method)求解最小值”

发表回复取消回复

15 thoughts on “梯度下降法(gradient descent)与牛顿法(newton’s method)求解最小值”

发表回复 取消回复

发表回复取消回复