factor v leiden,selu激活函数
简单地说,知道神经网络中每个神经元节点接收前一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点直接将输入属性值传递给下一层(隐层或在多层神经网络中,上层节点的输出和下层节点的输入之间存在函数关系,此函数称为激活函数。
不用激活函数(实际上激活函数相当于f(x )=x ) ),在这种情况下,你各层节点的输入是上层输出的线性函数,很容易验证。 不管你有多少神经网络,输出都是输入的线性组合,其效果和没有隐藏层一样。 在这种情况下,它是最原始的感知机(Perceptron ),网络的近似能力相当有限。 因此,引入非线性函数作为激活函数,深层神经网络的表达能力更强。
1 .恢复线性阵列(relu )函数格式:
relu(x ) ) xx00 otherwise relu ((left ) (Begin ) Array ) ) ll ) xamp; \textrm{x $\ge$ 0}\\0 amp; \ text RM { otherwise }\\ end { array }\right.relu (x ({ x0x0 otherwise } )
是最常用的激活函数,格式简单,感觉是高度非线性的。
优点:高度非线性。 加快收敛速度,缓解梯度消失、爆炸问题,简化计算。
缺点:所有输入负数均为0,训练中可能变脆弱,神经元易失活,任何数据点均不重启。 关于ReLu中(x0 )的激活,此时梯度为0,因此在下降中权重不会被调整。
2.Leaky-ReLU函数格式:
lreLu(x ) ) xx0axotherwiselrelu ) x )=(left((begin ) array ) ) ll ) xamp; \textrm{x $\ge$ 0}\\ax amp; \ text RM { otherwise }\\ end { array }\right.lre Lu (x ({ xax0 otherwise } )
这里,a是固定参数,通常取0.01。
Leaky-ReLU是ReLU的一种变体,它会影响对输入小于0的部分的反应,从而减少ReLU的稀疏性。 因为通过设定系数a,可以确保输入小于0时得到弱的输出。
优点:缓解ReLU引起的神经元死亡问题。
缺点:由于有负数输出,其非线性度不如ReLU强,在某些分类任务中不如Sigmoid有效,请不要提到ReLU。
3 .可扩展线性阵列(elu )函数格式:
Elu(x,) ) xx0) exp ) x )1) otherwiseELU(x ) x,\alpha ) (left({\begin{array}{ll}xamp; \ text RM { x $\ge $0}\\\alpha (exp (x (-1 ) amp; \ text RM { otherwise }\\ end { array }\right.elu (x,) (x) exp(x )1) x0otherwise
像批量正则化一样可以使数据平均更接近0,计算复杂度低于批量正则化。 与relu相比有负的部分,与lrelu和prelu相比抗噪声能力强。
线性部分可以减轻ELU的梯度消失,并且负部分使ELU对于输入变化和噪声更稳健。 由于具有负值,ELU的输出平均值接近零,因此收敛速度变快。
4 .缩放扩展线阵列(selu )函数格式:
selu(x ) (selu ) xx0selu ) exp ) x )1) otherwiseSeLU(x ) ) lambda_{selu} ) left ) (begin { array } {\1 } \ text RM { otherwise }\\ end { array }\right.selu (x )=selu ) xselu ) exp(x )1) x0otherwise
whereMediumSpace; selu1.6733,selu1.0507 where\:\alpha _ { selu }\approx 1.6733,\ lambda _ { selu } _ approx 1.0507
深度学习在卷积神经网络和循环神经网络方面取得了重大突破,但标准前馈网络的成功新闻很少。 因此引入自我正规化的神经网络,尝试高度的抽象表现。
该自归一化神经网络的激活函数为selu,也是基于激活函数的归一化方案。 具有自归一化的特征,即使施加噪声也收敛为平均值为0、方差为1或方差具有上下边界。
优点:全连接层效果好,可避免坡度消失和爆炸。
缺点:在卷积网络中的效果还没有被证明。 可能会引起过拟合。
5 .缩放扩展阵列(ser Lu )函数格式:
selu(x )=ser Lu (xx0serluxexotherwiseselu ) x )=(lambda_{serLu}(left ) (begin{array}{ll}xamp )。 \ text RM { x $\ge $0}\\ alpha _ { ser Lu } xe ^ { x } amp; \ text RM { otherwise }\\ end { array }\right.selu (x )=serLu ) xserLuxex0Otherwise
whereMediumSpace; serlugt; 0,serlugt; 0where \: \alpha_{serlu} gt; 0,\lambda_{serlu} gt; 0whereserlu 0,serlu 0
两个参数是确定的。 该函数保留了基于selu归一化的性质,但打破单调性的是负值部分带有尖峰,但对于输入较大的负值,由于输出的值接近0,所以平均值也和selu一样有为零的倾向。 另外,为了防止过拟合,设计了适合serlu的dropout方案,shift-dropout。
参考文献:
1.effectivenessofscaledexponentially-regularizedlinearunits (ser lus ) )。
2 .自助标准化网络
3.fastandaccuratedeepnetworklearningbyexponentiallinearunits (elus ) )。
4 .维基百科(Rectifier(NeuralNetWorks ) )