【深度学习】LSTM的架构及公式

第一个门：决定我们要扔掉哪些信息（forget gate layer）ft=σ(Wf∗[ht−1,xt]+bf)f_t = \sigma(W_{f}*[h_{t-1},x_t] + b_f)ft=σ(Wf∗[ht−1,xt]+bf)第二个门：用来决定我们打算决定储存哪些新信息。it=σ(Wi∗[ht−1,xt]+bi)i_t = \sigma(W_i*[h_{t-1},x_t] + ..

Alexbyy

7503人浏览 · 2019-01-22 11:59:33

Alexbyy · 2019-01-22 11:59:33 发布

LSTM比传统的RNN强在哪里？

LSTM：long short term memory networks(长短时记忆模型)
传统的RNNs只能解决短期依赖的问题，比如我们想预测这句话“the clouds are in the sky”的最后一个词"sky"，我们不需要更多的信息，前面的信息已经足够了，这种情况下，相关信息之间的距离非常近，此时传统的RNNs可以处理此类问题。但当相关信息距离非常远时，比如我们要预测“I grew up in France…I speak fluent French”这句话中的最后一个词“French”，我们需要之前的信息“France”，对于这种长距离的依赖RNNs是无法处理的，但是LSTMs可以解决此类问题。

LSTM的结构

第一幅图是传统的RNN的结构，每个循环单元中只有一层layer。传统的RNN计算公式可以参看此链接
standard RNN
下图是LSTM的结构，每个循环单元中有四层layer。
在这里插入图片描述
将LSTM循环单元进一步展开如下图:

LSTM循环单元包含三个门（gate），分别负责遗忘哪些历史信息（Forget gate）、增加哪些历史信息（updating gate）、以及输出门(Output gate)

第一个门（（forget gate layer））：决定我们要扔掉哪些信息 $\Gamma_f^{\langle t \rangle} = \sigma(W_f[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_f)\tag{1}$ 该公式计算出的值介于0-1之间（因为激活函数是sigmoid），所以当该值与 $c^{<t-1>}$ 点乘操作时，值越大的位置相乘后得到的结果值也越大，即该位置保留的历史信息越多。
第二个门（updating gate）：用来决定我们要增加哪些新的信息 $\Gamma_u^{\langle t \rangle} = \sigma(W_u[a^{\langle t-1 \rangle}, x^{\{t\}}] + b_u)\tag{2}$
第三层layer的计算公式如下，用来与更新门点乘得到要增加的信息： $\tilde{c}^{\langle t \rangle} = \tanh(W_c[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_c)\tag{3}$ 最终该循环单元的 $c^{<t>}$ ，即用来保存历史信息的输出，用下面公式计算： $c^{\langle t \rangle} = \Gamma_f^{\langle t \rangle}* c^{\langle t-1 \rangle} + \Gamma_u^{\langle t \rangle} *\tilde{c}^{\langle t \rangle} \tag{4}$
第三个门（Output gate），该门用来计算 $a^{<t>}$ , 然后 $a^{<t>}$ 用来计算该单元的输出 $y$ $\Gamma_o^{\langle t \rangle}= \sigma(W_o[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_o)\tag{5}$
$a^{\langle t \rangle} = \Gamma_o^{\langle t \rangle}* \tanh(c^{\langle t \rangle})\tag{6}$

参考博客及论文：
https://arxiv.org/pdf/1402.1128v1.pdf
http://colah.github.io/posts/2015-08-Understanding-LSTMs/

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

介于V4优秀的LuBan架构，核心组件非常少，资源占用也显著降低，同时带来众多功能和便利性。：使用海光3350/兆芯开先KX-5000芯片，麒麟V10 SP3操作系统，以及Containerd 1.7.13、Kubernetes v1.31.8、KubeSphere v4.1.3等软件版本。原创编写，详细记录了从环境准备到平台验证的完整流程，为信创环境下的Kubernetes与KubeSphere

2048 AI社区

从狂热到深耕：一个AI从业者的智能体创业心路历程

2048 AI社区

MCP：从被动响应到自主执行的自动化协议

AI正突破传统代码生成边界，向全流程智能调度演进。MCP（Model Context Protocol）作为开放协议，为AI与工具建立统一接口，实现跨模型、跨工具的复杂流程编排。其核心价值在于生态复用、安全可控和上下文感知，通过客户端-服务器架构让AI自主调用API完成从代码检查到性能优化的全流程。相比Function Call的单次调用，MCP支持多工具串联和本地数据处理，将重塑前端开发模式——

2048 AI社区

所有评论(0)

查看更多评论

Alexbyy

@Alexbyy

已为社区贡献2条内容