优化 | Nesterov&#39;s accelerated method

『运筹OR帷幄』温故

作者：覃含章

本文旨在给出Nesterov加速算法之所以能对常规一阶算法加速的一种代数解释，这种观点来自于将此种方法看成gradient descent（primal view）和mirror descent（dual view）的线性耦合（linear coupling）。我们知道，一阶算法常用于深度学习中对神经网络损失函数的训练当中，而本文则是给出了Nesterov加速算法背后的一些更深层次的原理性探讨。

我们知道，著名的Nesterov加速算法由Nesterov在83年即提出，并证明了广泛情形下这种一阶算法（即只用到gradient信息）在凸优化问题中的收敛速度达到最优（match information lower bound）。然而，这么多年以来，为何形式上一个简单变化（比如，基于gradient descent）之后的算法就能将gradient descent的收敛速度整整提升一个量级，达到最优，这背后隐含的原理一直是很多人难以理解和解释的。我记得之前在Prof Robert Freund课上他讲Nemirovski回忆第一次见到Nesterov这个work的时候，“I was very surprised that a seemingly mere algebraic trick can make a real difference in the algorithm in terms of its convergence behavior”... "It was a beautifully written proof that I felt like I didn't understand what's behind."

本文旨在给出Nesterov加速算法之所以能对常规一阶算法加速的一种代数解释，这种观点来自于将此种方法intepret成gradient descent（primal view）和mirror descent（dual view）的线性耦合（linear coupling）。这种观点是由朱泽园和Lorenzo Orecchia在14年提出（[1]）。

自然，这并不是唯一一种intepret为何这种方法可以加速一般一阶算法的观点。比如，Nesterov最早基于potential function的proof: [2] 基于微分方程的interpretation（看成离散化的ODE）：[3] 基于椭圆法（ellipsoid method）的几何加速算法（形式上已经和Nestrov的原始方法区别很大了）：[4]

其实这些其它的观点也很有意思，不过和本文的观点出发点完全不同，所以本篇文章不会涉及。

1.一些关于Gradient Descent和Mirror Descent的基本观点

本节我们给出一些high level的对于gradient descent(GD)和mirror descent(MD)的相关讨论。

我们指出，GD在primal view下的本质是利用convexity minimize一个quadratic upper bound（同样，这点在专栏文章里已经有详细讨论）。具体来说，固定步长的gradient descent的更新步骤可以写成：

注意这里我们MD的收敛速度比GD要慢一个量级，因为我们考虑了非光滑情形，即每一步MD甚至不一定会降低目标函数值。至于光滑情形下的分析和GD类似，具有同样速度的收敛速度，详情请见公众号之前的文章。

同样我们指出一个很显然的观察， MD与GD相反，在(sub)gradient比较小的时候更加有效，这是因为核心引理里的regret实际上在这种情况才比较小，反之可能会很大。

2.基于线性耦合的加速

展开阅读全文

页面更新：2024-05-16

标签：步长帷幄微分方程神经网络代数线性光滑算法函数常规本文很大观点速度文章科技

1 2 3 4 5

优化 | Nesterov&#39;s accelerated method

职场 | 亚马逊首席科学家李沐博士：工作五年反思

优化 | 线性规划的历史、模型及案例

知乎热议 | 如何评价2021年度阿贝尔奖？

OR会客厅 NO.2 | 国内考博、直博申请经验分享漫谈

数据科学 | 如何有效的利用和自建机器学习数据集

AI | 算法工程师必备的深度学习——深度学习简介

什么是大学数学（2）——三大数学专业辨析，常见数学学习路线

优化 | Operations Research论文综述(69(1)期)

「会议通知｜EI检索」2021年节能经济与供应链学术论坛(EESC 2021)

优化 | 随机取N个点，这些点落在同一个半圆（球）的概率

科普 |「骑手竞争激烈，平台不断试探人的极限」？

AI | 怎样快速入门机器学习和深度学习？

优化 | 运筹学：从入门到毕业

知乎热议│你在读博士期间明白的最深刻的道理是什么？

报道 | IJCAI 2021 研讨会：当数据科学遇上优化 (DSO)

优化 | 线性规划的历史、模型及案例

AI | 算法工程师必备的深度学习——深度学习简介

杉数科技获得国际认可，COPT获邀登陆NEOS

AI | 做算法工作的小反思

知乎热议 | 如何看待 2022 年秋招算法岗人间地狱？

第三十七课步长和重复复制（CorelDraw X8从入门到精通）

硬科技投资，美元基金挤不进的围城

科技公司如何把握碳中和政策机遇？

第五十课线性标注、对齐标注（AutoCAD2018从入门到精通

第五十六课折弯线性、检验标注（AutoCAD2018从入门到精

优化 | Nesterov&amp;#39;s accelerated method

优化 | Nesterov's accelerated method