GRU算法原理

一、GRU算法

　　GRU（Gate Recurrent Unit，循环门单元）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

　　在LSTM中引入了三个门函数：输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门：分别是更新门和重置门。具体结构如下图所示：　　　　

　　图中的z_t和r_t分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集

　　GRU组合了遗忘门和输入门到一个单独的更新门当中，也合并了细胞状态 C和隐藏状态h，并且还做了一些其他的改变，使得其模型比标准LSTM模型更简单，其数学表达式为：

$egin{equation} egin{aligned} z_{t} &=sigmaleft(W_{z} cdotleft[h_{t-1}, x_{t}ight]ight) \ r_{t} &=sigmaleft(W_{r} cdotleft[h_{t-1}, x_{t}ight]ight) \ ilde{h}_{t} &= anh left(W cdotleft[r_{t} odot h_{t-1}, x_{t}ight]ight) \ h_{t} &=left(1-z_{t}ight) odot h_{t-1}+z_{t} odot ilde{h}_{t} end{aligned} end{equation}\$