椛开埖榭吧 关注:2贴子:905
  • 10回复贴,共1

为什么使用梯度下降而不是牛顿法?

只看楼主收藏回复

一楼祭天,下面贴来源


IP属地:海南1楼2021-05-15 18:13回复
    1、梯度下降法
    梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。
    梯度下降法的优化思想:用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。
    缺点:
    靠近极小值时收敛速度减慢,求解需要很多次的迭代;
    直线搜索时可能会产生一些问题;
    可能会“之字形”地下降。
    2、牛顿法
    牛顿法最大的特点就在于它的收敛速度很快。
    优点:二阶收敛,收敛速度快;
    缺点:
    牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算比较复杂。
    牛顿法收敛速度为二阶,对于正定二次函数一步迭代即达最优解。
    牛顿法是局部收敛的,当初始点选择不当时,往往导致不收敛;
    二阶海塞矩阵必须可逆,否则算法进行困难。
    关于牛顿法和梯度下降法的效率对比:
    从本质上去看,牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光更加长远,所以少走弯路;相对而言,梯度下降法只考虑了局部的最优,没有全局思想。)
    根据wiki上的解释,从几何上说,牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面,而梯度下降法是用一个平面去拟合当前的局部曲面,通常情况下,二次曲面的拟合会比平面更好,所以牛顿法选择的下降路径会更符合真实的最优下降路径。
    3、拟牛顿法
    拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷,它使用正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂度。
    拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化,构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法,尤其对于困难的问题。另外,因为拟牛顿法不需要二阶导数的信息,所以有时比牛顿法更为有效。如今,优化软件中包含了大量的拟牛顿算法用来解决无约束,约束,和大规模的优化问题。
    4、小结
    在机器学习中的无约束优化算法,除了梯度下降以外,还有前面提到的最小二乘法,此外还有牛顿法和拟牛顿法。
    梯度下降法和最小二乘法相比,梯度下降法需要选择步长,而最小二乘法不需要。梯度下降法是迭代求解,最小二乘法是计算解析解。如果样本量不算很大,且存在解析解,最小二乘法比起梯度下降法要有优势,计算速度很快。但是如果样本量很大,用最小二乘法由于需要求一个超级大的逆矩阵,这时就很难或者很慢才能求解解析解了,使用迭代的梯度下降法比较有优势。
    梯度下降法和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。


    IP属地:海南2楼2021-05-15 18:13
    收起回复
      我觉得现有的比较好的图片降噪处理应该都使用的是典型的机器学习式的那种方案, 但是我原本以为是类似声音降噪的原理那样, 是通过取得噪声的波形以后再进行处理.


      IP属地:海南3楼2021-05-15 18:24
      收起回复
        在机器学习以外的许多社区中, 更常见的是使用传统的编程语言来直接实现微分软件, 例如用 Python 或者 C 来编程, 并且自动生成使用这些语言编写的不同函数的程序. 在深度学习界中, 计算图通常使用由专用库创建的明确的数据结构表示. 专用方法的缺点是需要库开发人员为每个操作定义 bprop 方法, 并且限制了库的用户仅使用定义好的那些操作...
        ...
        一些软件框架支持使用高阶导数. 在深度学习软件框架中, 这至少包括 Theano 和 TensorFlow . 这些库使用一种数据结构来描述要被微分的原始函数, 它们使用相同类型的数据结构来描述这个函数的导数表达式. 这意味着符号微分机制可以应用于导数 (从而产生高阶导数)


        IP属地:海南4楼2021-05-15 19:07
        回复
          lz,我的初始参数设置不当时,使用l-bfgs拟牛顿法会出现反向收敛,这是可能的嘛!


          IP属地:山东来自Android客户端5楼2023-02-11 01:36
          收起回复