<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Recurrent_Neural_Networks%2Fzh</id>
	<title>Recurrent Neural Networks/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Recurrent_Neural_Networks%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Recurrent_Neural_Networks/zh&amp;action=history"/>
	<updated>2026-04-27T19:26:25Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Recurrent_Neural_Networks/zh&amp;diff=5835&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Recurrent Neural Networks unit 16 → zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Recurrent_Neural_Networks/zh&amp;diff=5835&amp;oldid=prev"/>
		<updated>2026-04-27T04:01:10Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Recurrent Neural Networks unit 16 → zh&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 04:01, 27 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l102&quot;&gt;Line 102:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 102:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== 参考文献 ==&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== 参考文献 ==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;div lang=&quot;en&quot; dir=&quot;ltr&quot; class=&quot;mw-content-ltr&quot;&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Elman, J. L. (1990). &amp;quot;Finding Structure in Time&amp;quot;. &amp;#039;&amp;#039;Cognitive Science&amp;#039;&amp;#039;, 14(2), 179–211.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Elman, J. L. (1990). &amp;quot;Finding Structure in Time&amp;quot;. &amp;#039;&amp;#039;Cognitive Science&amp;#039;&amp;#039;, 14(2), 179–211.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Hochreiter, S. &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;and &lt;/del&gt;Schmidhuber, J. (1997). &amp;quot;Long Short-Term Memory&amp;quot;. &amp;#039;&amp;#039;Neural Computation&amp;#039;&amp;#039;, 9(8), 1735–1780.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Hochreiter, S. &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;与 &lt;/ins&gt;Schmidhuber, J. (1997). &amp;quot;Long Short-Term Memory&amp;quot;. &amp;#039;&amp;#039;Neural Computation&amp;#039;&amp;#039;, 9(8), 1735–1780.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Cho, K. et al. (2014). &amp;quot;Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation&amp;quot;. &amp;#039;&amp;#039;EMNLP&amp;#039;&amp;#039;.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Cho, K. et al. (2014). &amp;quot;Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation&amp;quot;. &amp;#039;&amp;#039;EMNLP&amp;#039;&amp;#039;.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Sutskever, I., Vinyals, O. &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;and &lt;/del&gt;Le, Q. V. (2014). &amp;quot;Sequence to Sequence Learning with Neural Networks&amp;quot;. &amp;#039;&amp;#039;NeurIPS&amp;#039;&amp;#039;.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Sutskever, I., Vinyals, O. &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;与 &lt;/ins&gt;Le, Q. V. (2014). &amp;quot;Sequence to Sequence Learning with Neural Networks&amp;quot;. &amp;#039;&amp;#039;NeurIPS&amp;#039;&amp;#039;.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Goodfellow, I., Bengio, Y. &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;and &lt;/del&gt;Courville, A. (2016). &amp;#039;&amp;#039;Deep Learning&amp;#039;&amp;#039;, &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Chapter &lt;/del&gt;10. MIT Press.&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* Goodfellow, I., Bengio, Y. &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;与 &lt;/ins&gt;Courville, A. (2016). &amp;#039;&amp;#039;Deep Learning&amp;#039;&amp;#039;, &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;第 &lt;/ins&gt;10 &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;章&lt;/ins&gt;. MIT Press.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;/div&amp;gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Deep Learning]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Deep Learning]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Intermediate]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Intermediate]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Neural Networks]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[Category:Neural Networks]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;

&lt;!-- diff cache key mediawiki:diff::1.12:old-5664:rev-5835 --&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Recurrent_Neural_Networks/zh&amp;diff=5664&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Recurrent Neural Networks unit 32 → zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Recurrent_Neural_Networks/zh&amp;diff=5664&amp;oldid=prev"/>
		<updated>2026-04-27T03:42:07Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Recurrent Neural Networks unit 32 → zh&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;lt;languages /&amp;gt;&lt;br /&gt;
{{ArticleInfobox | topic_area = Deep Learning | difficulty = Intermediate | prerequisites = [[Neural Networks]], [[Backpropagation]]}}&lt;br /&gt;
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;循环神经网络&amp;#039;&amp;#039;&amp;#039;（&amp;#039;&amp;#039;&amp;#039;RNN&amp;#039;&amp;#039;&amp;#039;）是一类[[Neural Networks|神经网络]]，旨在处理&amp;#039;&amp;#039;&amp;#039;序列数据&amp;#039;&amp;#039;&amp;#039;——元素顺序具有重要意义的数据。与前馈网络不同，RNN 包含循环连接，使信息能够跨时间步持续存在，从而赋予它们一种记忆形式。&lt;br /&gt;
&lt;br /&gt;
== 序列建模 ==&lt;br /&gt;
&lt;br /&gt;
现实世界中的许多问题涉及序列：文本是单词的序列，语音是音频帧的序列，股票价格构成时间序列，DNA 是核苷酸的序列。标准前馈网络需要固定大小的输入，并独立处理每个输入，这使得它们不适用于上下文重要且长度可变的序列。&lt;br /&gt;
&lt;br /&gt;
RNN 通过一次处理一个元素的输入来解决这个问题，同时维护一个&amp;#039;&amp;#039;&amp;#039;隐藏状态&amp;#039;&amp;#039;&amp;#039;，用于总结迄今为止所看到的信息。&lt;br /&gt;
&lt;br /&gt;
== 基础 RNN ==&lt;br /&gt;
&lt;br /&gt;
在每个时间步 &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;，基础 RNN 计算：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{h}_t = \tanh(\mathbf{W}_{hh}\,\mathbf{h}_{t-1} + \mathbf{W}_{xh}\,\mathbf{x}_t + \mathbf{b}_h)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{y}_t = \mathbf{W}_{hy}\,\mathbf{h}_t + \mathbf{b}_y&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
其中 &amp;lt;math&amp;gt;\mathbf{x}_t&amp;lt;/math&amp;gt; 是时间 &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt; 处的输入，&amp;lt;math&amp;gt;\mathbf{h}_t&amp;lt;/math&amp;gt; 是隐藏状态，&amp;lt;math&amp;gt;\mathbf{y}_t&amp;lt;/math&amp;gt; 是输出，&amp;lt;math&amp;gt;\mathbf{W}_{hh}, \mathbf{W}_{xh}, \mathbf{W}_{hy}&amp;lt;/math&amp;gt; 是在所有时间步之间共享的权重矩阵。初始隐藏状态 &amp;lt;math&amp;gt;\mathbf{h}_0&amp;lt;/math&amp;gt; 通常设置为零向量。&lt;br /&gt;
&lt;br /&gt;
关键的思想是在每个时间步都应用相同的参数——&amp;#039;&amp;#039;&amp;#039;时间上的权重共享&amp;#039;&amp;#039;&amp;#039;——这使得网络能够在序列中的不同位置之间进行泛化。&lt;br /&gt;
&lt;br /&gt;
== 时间反向传播（BPTT） ==&lt;br /&gt;
&lt;br /&gt;
训练 RNN 需要计算损失相对于共享权重的梯度。&amp;#039;&amp;#039;&amp;#039;时间反向传播&amp;#039;&amp;#039;&amp;#039;（BPTT）将 RNN 在时间步上&amp;quot;展开&amp;quot;，生成一个具有共享权重的深度前馈网络，然后应用标准的[[Backpropagation|反向传播]]。&lt;br /&gt;
&lt;br /&gt;
对于长度为 &amp;lt;math&amp;gt;T&amp;lt;/math&amp;gt; 的序列，损失相对于 &amp;lt;math&amp;gt;\mathbf{W}_{hh}&amp;lt;/math&amp;gt; 的梯度涉及雅可比矩阵的乘积：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\frac{\partial L}{\partial \mathbf{W}_{hh}} = \sum_{t=1}^{T}\frac{\partial L_t}{\partial \mathbf{W}_{hh}} = \sum_{t=1}^{T}\sum_{k=1}^{t}\frac{\partial L_t}{\partial \mathbf{h}_t}\left(\prod_{j=k+1}^{t}\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}\right)\frac{\partial \mathbf{h}_k}{\partial \mathbf{W}_{hh}}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
雅可比矩阵的乘积 &amp;lt;math&amp;gt;\prod \partial \mathbf{h}_j / \partial \mathbf{h}_{j-1}&amp;lt;/math&amp;gt; 是梯度消失和梯度爆炸问题的根源。&lt;br /&gt;
&lt;br /&gt;
== 梯度消失问题 ==&lt;br /&gt;
&lt;br /&gt;
当循环雅可比矩阵的谱半径小于 1 时，梯度信号会随时间呈指数衰减——这就是&amp;#039;&amp;#039;&amp;#039;梯度消失问题&amp;#039;&amp;#039;&amp;#039;。这使得基础 RNN 极难学习跨越 10–20 个以上时间步的依赖关系。&lt;br /&gt;
&lt;br /&gt;
相反，当谱半径超过 1 时，梯度可能呈指数增长——这就是&amp;#039;&amp;#039;&amp;#039;梯度爆炸问题&amp;#039;&amp;#039;&amp;#039;。梯度爆炸通常通过&amp;#039;&amp;#039;&amp;#039;梯度裁剪&amp;#039;&amp;#039;&amp;#039;（将梯度范数限制在某个阈值内）来处理，但梯度消失则需要架构层面的解决方案。&lt;br /&gt;
&lt;br /&gt;
== 长短期记忆（LSTM） ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;LSTM&amp;#039;&amp;#039;&amp;#039;（Hochreiter 和 Schmidhuber，1997）引入了一个&amp;#039;&amp;#039;&amp;#039;细胞状态&amp;#039;&amp;#039;&amp;#039; &amp;lt;math&amp;gt;\mathbf{c}_t&amp;lt;/math&amp;gt;，它以最小的干扰随时间流动，以及三个控制信息流动的&amp;#039;&amp;#039;&amp;#039;门&amp;#039;&amp;#039;&amp;#039;：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{f}_t = \sigma(\mathbf{W}_f[\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_f)&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;遗忘门&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{i}_t = \sigma(\mathbf{W}_i[\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_i)&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;输入门&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_c[\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_c)&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;候选细胞状态&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;细胞状态更新&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{o}_t = \sigma(\mathbf{W}_o[\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_o)&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;输出门&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
细胞状态就像一条传送带：遗忘门决定丢弃哪些旧信息，输入门决定存储哪些新信息，输出门控制暴露给下一层的内容。由于细胞状态是通过加法（而不是乘法）进行更新的，梯度可以更容易地在长序列中流动。&lt;br /&gt;
&lt;br /&gt;
== 门控循环单元（GRU） ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;GRU&amp;#039;&amp;#039;&amp;#039;（Cho 等，2014）通过合并细胞状态和隐藏状态，并仅使用两个门来简化 LSTM：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{z}_t = \sigma(\mathbf{W}_z[\mathbf{h}_{t-1}, \mathbf{x}_t])&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;更新门&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{r}_t = \sigma(\mathbf{W}_r[\mathbf{h}_{t-1}, \mathbf{x}_t])&amp;lt;/math&amp;gt;  （&amp;#039;&amp;#039;&amp;#039;重置门&amp;#039;&amp;#039;&amp;#039;）&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\tilde{\mathbf{h}}_t = \tanh(\mathbf{W}[\mathbf{r}_t \odot \mathbf{h}_{t-1}, \mathbf{x}_t])&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{h}_t = (1 - \mathbf{z}_t) \odot \mathbf{h}_{t-1} + \mathbf{z}_t \odot \tilde{\mathbf{h}}_t&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
GRU 的参数比 LSTM 少，通常能够达到相当的性能。在实践中，LSTM 和 GRU 之间的选择通常是凭经验做出的。&lt;br /&gt;
&lt;br /&gt;
== 双向 RNN ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;双向 RNN&amp;#039;&amp;#039;&amp;#039; 在两个方向上处理序列——前向（从左到右）和后向（从右到左）——并将隐藏状态拼接起来：&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\mathbf{h}_t = [\overrightarrow{\mathbf{h}}_t;\; \overleftarrow{\mathbf{h}}_t]&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
这使得模型在每个时间步都能利用过去和未来的上下文，这对于命名实体识别和机器翻译等任务非常有益，因为在这些任务中，单词的含义取决于其周围的上下文。&lt;br /&gt;
&lt;br /&gt;
== 应用 ==&lt;br /&gt;
&lt;br /&gt;
RNN 及其门控变体已被应用于各种序列任务：&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;语言建模&amp;#039;&amp;#039;&amp;#039; —— 预测序列中的下一个单词。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;机器翻译&amp;#039;&amp;#039;&amp;#039; —— 用于序列到序列翻译的编码器-解码器架构（Sutskever 等，2014）。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;语音识别&amp;#039;&amp;#039;&amp;#039; —— 将音频转录为文本（通常与 CTC 损失结合使用）。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;情感分析&amp;#039;&amp;#039;&amp;#039; —— 对文本的情感进行分类。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;时间序列预测&amp;#039;&amp;#039;&amp;#039; —— 预测金融或传感器数据的未来值。&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;音乐生成&amp;#039;&amp;#039;&amp;#039; —— 生成音符序列。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，对于许多 NLP 任务，&amp;#039;&amp;#039;&amp;#039;Transformers&amp;#039;&amp;#039;&amp;#039;（Vaswani 等，2017）由于能够并行处理序列，并通过 self-attention 更有效地捕捉长距离依赖关系，已在很大程度上取代了 RNN。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
&lt;br /&gt;
* [[Neural Networks]]&lt;br /&gt;
* [[Backpropagation]]&lt;br /&gt;
* [[Convolutional Neural Networks]]&lt;br /&gt;
* [[Word Embeddings]]&lt;br /&gt;
* [[Overfitting and Regularization]]&lt;br /&gt;
&lt;br /&gt;
== 参考文献 ==&lt;br /&gt;
&lt;br /&gt;
&amp;lt;div lang=&amp;quot;en&amp;quot; dir=&amp;quot;ltr&amp;quot; class=&amp;quot;mw-content-ltr&amp;quot;&amp;gt;&lt;br /&gt;
* Elman, J. L. (1990). &amp;quot;Finding Structure in Time&amp;quot;. &amp;#039;&amp;#039;Cognitive Science&amp;#039;&amp;#039;, 14(2), 179–211.&lt;br /&gt;
* Hochreiter, S. and Schmidhuber, J. (1997). &amp;quot;Long Short-Term Memory&amp;quot;. &amp;#039;&amp;#039;Neural Computation&amp;#039;&amp;#039;, 9(8), 1735–1780.&lt;br /&gt;
* Cho, K. et al. (2014). &amp;quot;Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation&amp;quot;. &amp;#039;&amp;#039;EMNLP&amp;#039;&amp;#039;.&lt;br /&gt;
* Sutskever, I., Vinyals, O. and Le, Q. V. (2014). &amp;quot;Sequence to Sequence Learning with Neural Networks&amp;quot;. &amp;#039;&amp;#039;NeurIPS&amp;#039;&amp;#039;.&lt;br /&gt;
* Goodfellow, I., Bengio, Y. and Courville, A. (2016). &amp;#039;&amp;#039;Deep Learning&amp;#039;&amp;#039;, Chapter 10. MIT Press.&lt;br /&gt;
&amp;lt;/div&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Category:Deep Learning]]&lt;br /&gt;
[[Category:Intermediate]]&lt;br /&gt;
[[Category:Neural Networks]]&lt;/div&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>