bbpt lstm公式的推导
BBPT (Better Bi-Partite Temporal) LSTM 是一种用于时间序列建模的改进的长短期记忆(LSTM)结构。该结构可以有效地处理具有多个时间分支的序列数据,并具有更好的长期记忆和长期依赖建模能力。本文将介绍BBPT LSTM结构的推导和相关的参考内容。
LSTM是一种递归神经网络(RNN)结构,它在序列数据中引入了门控单元,可以有效地处理长期依赖性。然而,传统的LSTM结构在多个时间分支上的建模能力有限,因为它只有一个全局的门控单元。BBPT LSTM通过引入两个分支的门控单元来扩展LSTM结构,使得每个时间分支都有独立的门控权重,从而改进了长期依赖性的建模能力。
BBPT LSTM的推导可以从LSTM的基本公式推导而来。基本的LSTM单元由三个门控单元和一个记忆单元组成,包括输入门(input gate)、遗忘门(forget gate)和输出门(output gate),以及记忆单元。记忆单元用于存储和传递信息,门控单元用于控制记忆单元中的信息流动。具体而言,LSTM的公式如下:
输入门:$i_t = \sigma (W_{ix}x_t+W_{ih}h_{t-1}+b_i)$
遗忘门:$f_t = \sigma (W_{fx}x_t+W_{fh}h_{t-1}+b_f)$
输出门:$o_t = \sigma (W_{ox}x_t+W_{oh}h_{t-1}+b_o)$
记忆单元:$c_t = f_t \odot c_{t-1} + i_t \odot \tanh(W_{cx}x_t+W_{ch}h_{t-1}+b_c)$
隐藏状态:$h_t = o_t \odot \tanh(c_t)$
其中,$x_t$ 是输入序列的第t个时间步的向量表示,$h_{t-1}$ 是上一个时间步的隐藏状态,$W_{ix}$、$W_{fx}$、$W_{ox}$、$W_{cx}$ 是输入门、遗忘门、输出门和记忆单元的权重矩阵,$W_{ih}$、$W_{fh}$、$W_{oh}$、$W_{ch}$ 是对应的权重矩阵,$b_i$、$b_f$、$b_o$、$b_c$ 是对应的偏置项,$\sigma$ 是激活函数(如sigmoid函数),$\odot$ 表示逐元素乘法,$\tanh$ 是双曲正切函数。
BBPT LSTM的公式和LSTM相似,只是在输入门、遗忘门和输出门的计算中引入多个分支。假设BBPT LSTM有两个分支,每个分支有独立的门控权重,公式可以表示为:
输入门:$i_{t1} = \sigma (W_{i1x}x_t+W_{i1h}h_{t-1}+b_{i1})$,$i_{t2} = \sigma (W_{i2x}x_t+W_{i2h}h_{t-1}+b_{i2})$
遗忘门:$f_{t1} = \sigma (W_{f1x}x_t+W_{f1h}h_{t-1}+b_{f1})$,$f_{t2} = \sigma (W_{f2x}x_t+W_{f2h}h_{t-1}+b_{f2})$
输出门:$o_{t1} = \sigma (W_{o1x}x_t+W_{o1h}h_{t-1}+b_{o1})$,$o_{t2} = \sigma (W_{o2x}x_t+W_{o2h}h_{t-1}+b_{o2})$session怎么记忆
记忆单元:$c_t = (f_{t1} \odot c_{t-1})+ (f_{t2} \odot c_{t-2}) + (i_{t1} \odot \tanh(W_{c1x}x_t+W_{c1h}h_{t-1}+b_{c1})) + (i_{t2} \odot \tanh(W_{c2x}x_t+W_{c2h}h_{t-1}+b_{c2}))$
隐藏状态:$h_t = (o_{t1} \odot \tanh(c_t)) + (o_{t2} \odot \tanh(c_{t-1}))$
上述公式中,$i_{t1}$、$i_{t2}$ 是输入门的两个分支,$f_{t1}$、$f_{t2}$ 是遗忘门的两个分支,$o_{t1}$、$o_{t2}$ 是输出门的两个分支,$c_{t-1}$、$c_{t-2}$ 是前两个时间步的记忆单元。这样,BBPT LSTM可以并行地处理两个时间分支,并且在记忆单元和隐藏状态中保持独立的信息流动。
关于BBPT LSTM的推导和相关参考内容,以下是一些可能的资料:
1. "BBPT-LSTM: Better Bi-partite Temporal Modeling for Long-Term Customer Behavior Prediction" (论文)
- 这是BBPT LSTM最初被提出的论文,其中详细介绍了BBPT LSTM的推导和具体实现细节。
2. "Recurrent Neural Networks with Top-k Gains for Session-based Recommendations" (论文)
- 这篇论文介绍了一种改进的BBPT LSTM架构,用于会话推荐任务。作者在BBPT LSTM中引入了Top-k增益机制,进一步提高了长期依赖性的建模能力。
3. "Understanding LSTM Networks" (博客文章)
- 这篇博客文章是对LSTM网络的详细介绍和推导,可以作为理解BBPT LSTM推导的基础参
考。
4. "Understanding LSTM and its diagrams" (博客文章)
- 这篇博客文章提供了LSTM的图示和简单的公式推导,对于初学者理解BBPT LSTM的推导过程有所帮助。
以上这些参考内容可以帮助读者更好地理解和推导BBPT LSTM。通过掌握BBPT LSTM的推导,读者可以更好地理解其原理和应用,并在时间序列建模问题中应用这种改进的LSTM结构。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论