Adam优化器再次改进北大孙栩课题组提出

Adam作为一种快速收敛的优化器被广泛采用，但是它较差的收敛性限制了使用范围，为了保证更优的结果，很多情况下我们还在使用SGD。

但SGD较慢的收敛速度也令人头疼，所以人们一直在研究进一步优化Adam的方法。AdaBound、RAdam都是在这方面的尝试。

最近北京大学孙栩课题组提出了一种新的优化器AdaMod。这是一种基于Adam的改进优化器，具有自动预热试探法和长期学习速率缓冲。

AdaMod的名称来自Adaptive（自适应）和Momental Bound（矩限制）。

在训练过程中，AdaMod可以轻松击败Adam，同时对学习率超参数、训练曲线都不那么敏感，并且不需要预热。

优点

AdaMod的原理是，在训练的同时计算自适应学习率的指数长期平均值，并使用该平均值来修剪训练过程中过高的学习率。

这一做法提高了优化器的收敛性，无需进行预热，并且降低了对学习率的敏感性。

在上图中，我们可以看出，SGDM和Adam的训练结果都依赖于初始学习率的选择。而AdaMod即使学习率相差两个数量级，也能收敛到同一结果。

相比Adam优化器，AdaMod只增加了一个超参数β3，用来描述训练中记忆长短的程度。

这种长期记忆解决了自适应学习率的异常过大数值，免于让优化器陷入了不良的状态。

与之前的RAdam优化器类似，AdaMod能够从训练开始就控制自适应学习率的变化，从而确保训练开始时的稳定性，无需预热。

在3个基于Transformer的神经机器翻译模型上，没有预热的AdaMod显示出了比预热的Adam有着更快的收敛速率和更好的收敛结果。

而Adam优化器如果不预热，效果可能会非常差，达到完全不可用的程度。

算法实现

其实，AdaMod的思路也很简单，只是在Adam的基础上做了一个小幅的修改。

如AdaBound所描述的，不稳定和异常的学习率通常出现在训练快结束时，这会危及自适应方法的泛化性能。

Adam优化器再次改进北大孙栩课题组提出

甲骨文创始人埃里森豪赌特斯拉获丰厚回报：一年躺赚6亿美元

柔性屏超级独角兽柔宇科技据称寻求赴美上市募资10亿美元

最新文章

无锡地区流量卡套餐价格无锡手机卡套餐(无锡电信手机套餐价格表2023)

无锡5g移动纯流量卡价格 2023无锡移动流量活动20g(江苏无锡移动流量套餐)

无锡5g电信流量卡价格中国电信5g无限流量卡(5g电信流量卡多少钱一个月)

无锡5g手机纯流量卡价格 5g无限流量卡多少钱(联通5g无限流量卡多少钱)

无线路由器流量卡批发价格路由器专用流量卡(无线wifi专用流量卡)

无线物联网流量卡价格物联网流量卡多少钱一张(联通物联网流量卡多少钱一张套餐的)

无线流量卡流量价格 2023年无线流量卡(2023年值得入手的流量卡推荐)

无线流量卡价格表无线流量卡怎么样(29元135G套餐任选)

无线手机电脑流量卡价格手机卡是无限流量的可以连接电脑上网吗(有没有电脑流量卡推荐)

无卡流量通19元套餐价格无卡用流量套餐(2024年便宜好用的大流量卡套餐)

标签

热评文章

兴国安邦（兴国安邦的意思）

一次性拖鞋的特点简介

1秒钟等于多少毫秒（那1秒等于多少毫秒呢？）

工业品的营销模式有哪些

东方歌舞团(东方歌舞团简介)

Adam优化器再次改进 北大孙栩课题组提出

甲骨文创始人埃里森豪赌特斯拉获丰厚回报：一年躺赚6亿美元

柔性屏超级独角兽柔宇科技据称寻求赴美上市 募资10亿美元

最新文章

无锡地区流量卡套餐价格 无锡手机卡套餐(无锡电信手机套餐价格表2023)

标签

热评文章

兴国安邦（兴国安邦的意思）

一次性拖鞋的特点简介

1秒钟等于多少毫秒（那1秒等于多少毫秒呢？）

工业品的营销模式有哪些

东方歌舞团(东方歌舞团简介)

关注我们的公众号

Adam优化器再次改进北大孙栩课题组提出

柔性屏超级独角兽柔宇科技据称寻求赴美上市募资10亿美元

无锡地区流量卡套餐价格无锡手机卡套餐(无锡电信手机套餐价格表2023)