引导词在深度神经网络中通常用作神经元的激活函数,称为**修正线性单元(Rectified linear unit,ReLU ) *。 ReLU是从神经科学的研究开始的。 2001年,Dayan,Abott从生物学角度模拟了脑神经元接收信号更准确的激活模型。 下图:
这里,横轴是时间(ms ),纵轴是神经元的放电速度(Firing Rate )。 同年,Attwell等神经科学家通过研究大脑能量消耗过程,推测神经元的工作方式具有稀疏性和分布性。2003年,Lennie等神经科学家估计大脑同时被激活的神经元只有1~4%,神经元的工作在ReLU函数中,类似表达是如何表示的? 与其他线性函数(如purlin )和非线性函数(如sigmoid、双曲正切)相比有什么优点? 在这里,我给你看看我会慢慢来的。
简单的美首先,让我们来看看ReLU激活函数的形式,如下图所示。
从上面的图中可以看出,ReLU函数实际上是分段线性函数,将所有负值设置为0,正值保持不变,操作为单侧抑制。 你不要小看这个简单的操作。 正因为有这种单侧抑制,神经网络中的神经元也会稀疏激活。 特别是对于CNN这样的深度神经网络模型,模型增加N层之后,理论上ReLU神经元的激活率将降低2的N次方倍这里有童鞋的话会问“ReLU的函数图像为什么必须这么长? 相反,或者可以向下延伸吗? 其实还得这么久。 只要能起到单侧抑制作用,无论是镜面反转还是180度反转,最终神经元的输出都只是常数项系数的累加,不影响模型的训练结果。 这样决定可能是为了配合生物学观点,让我们更容易理解。
那么问题是,这种疏松性是如何作用的? 换句话说,为什么要稀疏神经元呢? 请举个例子说明一下。 当我们看到名侦探柯南时,我们可以根据故事进行思考和推理。 这个时候,使用我们大脑的左半球; 看蒙面演唱会的时候,我们可以和歌手一起哼唱。 那个时候使用的是我们的右半球。 左半球侧重于理性思维,右半球侧重于感性思维。 也就是说,我们在进行运算和欣赏时,部分神经元被激活或抑制,所以可以说是各自的职责。 例如,生病去医院,检查报告里有几百个指标,但与病情相关的通常只有这么多。 同样,在训练深度分类模型时,与目标相关的特征往往仅此而已,因此通过ReLU实现稀疏后的模型能够更好地挖掘相关特征,拟合训练数据。
另外,与其他激活函数相比,ReLU具有以下优点。对于线性函数而言,ReLU的表达能力更强,特别是出现在深度网络上; 另一方面,在非线性函数的情况下,由于非负区间的梯度为常数,所以ReLU为不存在梯度消失问题(Vanishing Gradient Problem),为3358www.Sina.com/。 现在让我稍微说明一下什么是梯度消失问题。 如果梯度小于1,则预测值和真实值之间的误差会在传播的每个层中衰减。 在深层模型中使用sigmoid作为激活函数时,这种现象尤为明显,导致模型收敛停滞。
以上是我对ReLU激活函数的理解。 在此,谢谢您的聆听。 不足的地方请多关照。 后续内容将不定期提供。 请关注小斗公众号模型的收敛速度维持在一个稳定状态。