常见学习率衰减方式

大家好，又见面了，我是你们的朋友风君子。

学习率

学习率的作用

在机器学习中，监督式学习通过定义一个模型，并根据训练集上的数据估计最优参数。梯度下降法是一个广泛被用来最小化模型误差的参数优化算法。梯度下降法通过多次迭代，并在每一步中最小化成本函数（cost 来估计模型的参数。学习率 (learning rate)，在迭代过程中会控制模型的学习进度。

在梯度下降法中，都是给定的统一的学习率，整个优化过程中都以确定的步长进行更新，在迭代优化的前期中，学习率较大，则前进的步长就会较长，这时便能以较快的速度进行梯度下降，而在迭代优化的后期，逐步减小学习率的值，减小步长，这样将有助于算法的收敛，更容易接近最优解。故而如何对学习率的更新成为了研究者的关注点。
在模型优化中，常用到的几种学习率衰减方法有：分段常数衰减、多项式衰减、指数衰减、自然指数衰减、余弦衰减、线性余弦衰减、噪声线性余弦衰减

学习率衰减常用参数有哪些

参数名称	参数说明
learning_rate	初始学习率
global_step	用于衰减计算的全局步数，非负，用于逐步计算衰减指数
decay_steps	衰减步数，必须是正值，决定衰减周期
decay_rate	衰减率
end_learning_rate	最低的最终学习率
cycle	学习率下降后是否重新上升
alpha	最小学习率
num_periods	衰减余弦部分的周期数
initial_variance	噪声的初始方差
variance_decay	衰减噪声的方差

分段常数衰减

分段常数衰减需要事先定义好的训练次数区间，在对应区间置不同的学习率的常数值，一般情况刚开始的学习率要大一些，之后要越来越小，要根据样本量的大小设置区间的间隔大小，样本量越大，区间间隔要小一点。下图即为分段常数衰减的学习率变化图，横坐标代表训练次数，纵坐标代表学习率。

指数衰减

以指数衰减方式进行学习率的更新，学习率的大小和训练次数指数相关，其更新规则为：
$decayed{\_}learning{\_}rate =learning{\_}rate*decay{\_}rate^{\frac{global{\_step}}{decay{\_}steps}}$
这种衰减方式简单直接，收敛速度快，是最常用的学习率衰减方式，如下图所示，绿色的为学习率随
训练次数的指数衰减方式，红色的即为分段常数衰减，它在一定的训练区间内保持学习率不变。

自然指数衰减

它与指数衰减方式相似，不同的在于它的衰减底数是 $e$ ，故而其收敛的速度更快，一般用于相对比较
容易训练的网络，便于较快的收敛，其更新规则如下
$decayed{\_}learning{\_}rate =learning{\_}rate*e^{\frac{-decay{\_rate}}{global{\_}step}}$
下图为为分段常数衰减、指数衰减、自然指数衰减三种方式的对比图，红色的即为分段常数衰减图，阶梯型曲线。蓝色线为指数衰减图，绿色即为自然指数衰减图，很明可以看到自然指数衰减方式下的学习率衰减程度要大于一般指数衰减方式，有助于更快的收敛。

多项式衰减

应用多项式衰减的方式进行更新学习率，这里会给定初始学习率和最低学习率取值，然后将会按照
给定的衰减方式将学习率从初始值衰减到最低值,其更新规则如下式所示。
$global{\_}step=min(global{\_}step,decay{\_}steps)$

$decayed{\_}learning{\_}rate =(learning{\_}rate-end{\_}learning{\_}rate)* \left( 1-\frac{global{\_step}}{decay{\_}steps}\right)^{power} \\ +end{\_}learning{\_}rate$

需要注意的是，有两个机制，降到最低学习率后，到训练结束可以一直使用最低学习率进行更新，另一个是再次将学习率调高，使用 decay_steps 的倍数，取第一个大于 global_steps 的结果，如下式所示.它是用来防止神经网络在训练的后期由于学习率过小而导致的网络一直在某个局部最小值附近震荡，这样可以通过在后期增大学习率跳出局部极小值。
$decay{\_}steps = decay{\_}steps*ceil \left( \frac{global{\_}step}{decay{\_}steps}\right)$
如下图所示，红色线代表学习率降低至最低后，一直保持学习率不变进行更新，绿色线代表学习率衰减到最低后，又会再次循环往复的升高降低。

余弦衰减

余弦衰减就是采用余弦的相关方式进行学习率的衰减，衰减图和余弦函数相似。其更新机制如下式所示：
$global{\_}step=min(global{\_}step,decay{\_}steps)$

$cosine{\_}decay=0.5*\left( 1+cos\left( \pi* \frac{global{\_}step}{decay{\_}steps}\right)\right)$

$decayed=(1-\alpha)*cosine{\_}decay+\alpha$

$decayed{\_}learning{\_}rate=learning{\_}rate*decayed$

如下图所示，红色即为标准的余弦衰减曲线，学习率从初始值下降到最低学习率后保持不变。蓝色的线是线性余弦衰减方式曲线，它是学习率从初始学习率以线性的方式下降到最低学习率值。绿色噪声线性余弦衰减方式。

常见学习率衰减方式

学习率

学习率的作用

学习率衰减常用参数有哪些

分段常数衰减

指数衰减

自然指数衰减

多项式衰减

余弦衰减

【Meta】16s rRNA和16s rDNA的区别

http错误种类及原因

最新文章

火车可以托运汽车吗

shampoo是什么意思（“洗发水”英文叫“shampoo香波”）

雷蛇笔记本怎么样(外星人和雷蛇笔记本做工)

科普下镧系元素

无水乙醇是什么东西

「干货」平昌县属于四川省哪个市

青铜剑图片及价格，普通的战国青铜剑价格

变化是什么意思(变化的拼音)

什么是碳水化合物食物(什么是碳水化合物)

市内快递一天能到吗

标签

热评文章

网上申请的流量卡上门激活_网上申请的流量卡上门激活要钱吗(你在网上申请的流量卡花)

网上申请的流量卡怎么充值_网上买的流量卡怎么充话费(网上免费申请的流量卡)

网上申请的流量卡是什么卡_网上流量卡怎么办(网上免费申请的流量卡该怎么退)

网上申请的流量卡注销了_网上申请的流量卡注销了还能用吗(怎么注销网上办的流量卡)

网上申请的流量卡退钱_网上申请的流量卡退钱多久到账(流量卡线上销户全教程)

常见学习率衰减方式

学习率

学习率的作用

学习率衰减常用参数有哪些

分段常数衰减

指数衰减

自然指数衰减

多项式衰减

余弦衰减

【Meta】16s rRNA和16s rDNA的区别

http错误种类及原因

最新文章

火车可以托运汽车吗

标签

热评文章

网上申请的流量卡上门激活_网上申请的流量卡上门激活要钱吗(你在网上申请的流量卡花)

网上申请的流量卡怎么充值_网上买的流量卡怎么充话费(网上免费申请的流量卡)

网上申请的流量卡是什么卡_网上流量卡怎么办(网上免费申请的流量卡该怎么退)

网上申请的流量卡注销了_网上申请的流量卡注销了还能用吗(怎么注销网上办的流量卡)

网上申请的流量卡退钱_网上申请的流量卡退钱多久到账(流量卡线上销户全教程)

关注我们的公众号