<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Searching_for_Activation_Functions%2Fpaper%2Fzh</id>
	<title>Searching for Activation Functions/paper/zh - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://marovi.ai/index.php?action=history&amp;feed=atom&amp;title=Searching_for_Activation_Functions%2Fpaper%2Fzh"/>
	<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/zh&amp;action=history"/>
	<updated>2026-04-27T17:01:08Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.1</generator>
	<entry>
		<id>https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/zh&amp;diff=12923&amp;oldid=prev</id>
		<title>DeployBot: Batch translate Searching for Activation Functions/paper unit 22 → zh</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/zh&amp;diff=12923&amp;oldid=prev"/>
		<updated>2026-04-27T08:05:17Z</updated>

		<summary type="html">&lt;p&gt;Batch translate Searching for Activation Functions/paper unit 22 → zh&lt;/p&gt;
&lt;table style=&quot;background-color: #fff; color: #202122;&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #202122; text-align: center;&quot;&gt;Revision as of 08:05, 27 April 2026&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l276&quot;&gt;Line 276:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 276:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[File:Arxiv_1710_05941_x7.png|423x276px|见图说明]]&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[File:Arxiv_1710_05941_x7.png|423x276px|见图说明]]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;div class=&amp;quot;mw-translate-fuzzy&amp;quot;&amp;gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Swish &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;和 &lt;/ins&gt;ReLU &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;之间最显著的差异是 &lt;/ins&gt;Swish 在 &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;x &amp;lt; 0&amp;lt;/math&amp;gt; 时的非单调&amp;quot;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;凸起&lt;/ins&gt;&amp;quot;。如图 [[#S4.F7|7]] &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;所示，很大比例的预激活值落在该凸起的范围内 (&lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;- 5 \leq x \leq 0)&amp;lt;/math&amp;gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;，这表明非单调凸起是 &lt;/ins&gt;Swish &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;的一个重要方面。可以通过改变 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;参数来控制凸起的形状。虽然固定 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta = 1&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;在实践中是有效的，但实验部分表明训练 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;可以在某些模型上进一步提高性能。图 &lt;/ins&gt;[[#S4.F7|7]] &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;绘制了来自 &lt;/ins&gt;Mobile NASNet-A 模型 &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;(Zoph 等&lt;/ins&gt;, [[#bib.bib53|2017]]&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;) 的训练后 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;值的分布。训练后的 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; 值分布在 &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;0&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;和 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;1.5&amp;lt;/math&amp;gt; 之间，并在 &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta \approx 1&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;处有一个峰值，这表明该模型利用了可训练 &lt;/ins&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;参数所提供的额外灵活性。&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Swish &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;与 &lt;/del&gt;ReLU &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;最显著的差别是 &lt;/del&gt;Swish 在 &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;x &amp;lt; 0&amp;lt;/math&amp;gt; 时的非单调&amp;quot;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;凸包&lt;/del&gt;&amp;quot;。如图 [[#S4.F7|7]] &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;所示，大量预激活落入凸包的范围（&lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;- 5 \leq x \leq 0)&amp;lt;/math&amp;gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;，表明非单调凸包是 &lt;/del&gt;Swish &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;的一个重要特征。凸包的形状可以通过改变 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;参数来控制。虽然在实践中固定 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta = 1&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;已经有效，但实验部分表明对某些模型而言训练 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;可进一步提高性能。图 &lt;/del&gt;[[#S4.F7|7]] &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;绘制了 &lt;/del&gt;Mobile NASNet-A 模型 &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;（Zoph et al.&lt;/del&gt;, [[#bib.bib53|2017]]&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;）训练得到的 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;值分布。训练得到的 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; 值分布在 &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;0&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;与 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;1.5&amp;lt;/math&amp;gt; 之间，并在 &amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta \approx 1&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;处出现峰值，表明模型利用了可训练 &lt;/del&gt;&amp;lt;math display=&amp;quot;inline&amp;quot;&amp;gt;\beta&amp;lt;/math&amp;gt; &lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;参数的额外灵活性。&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;&lt;td style=&quot;color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;/div&amp;gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-side-added&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;br/&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;在实践中，在大多数深度学习库中只需修改一行代码即可实现 Swish，例如在 TensorFlow（Abadi et al., [[#bib.bib1|2016]]）中使用 &amp;lt;code&amp;gt;x * tf.sigmoid(beta * x)&amp;lt;/code&amp;gt;，或在本工作提交之后发布的 TensorFlow 版本中使用 &amp;lt;code&amp;gt;tf.nn.swish(x)&amp;lt;/code&amp;gt;。需要注意的是，如果使用 BatchNorm（Ioffe &amp;amp;amp; Szegedy, [[#bib.bib21|2015]]），应当设置其 scale 参数。一些高层库由于 ReLU 是分段线性函数而默认关闭 scale 参数，但该设置对 Swish 并不正确。对于训练 Swish 网络，我们发现略微降低用于训练 ReLU 网络的学习率效果很好。&lt;/div&gt;&lt;/td&gt;&lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;在实践中，在大多数深度学习库中只需修改一行代码即可实现 Swish，例如在 TensorFlow（Abadi et al., [[#bib.bib1|2016]]）中使用 &amp;lt;code&amp;gt;x * tf.sigmoid(beta * x)&amp;lt;/code&amp;gt;，或在本工作提交之后发布的 TensorFlow 版本中使用 &amp;lt;code&amp;gt;tf.nn.swish(x)&amp;lt;/code&amp;gt;。需要注意的是，如果使用 BatchNorm（Ioffe &amp;amp;amp; Szegedy, [[#bib.bib21|2015]]），应当设置其 scale 参数。一些高层库由于 ReLU 是分段线性函数而默认关闭 scale 参数，但该设置对 Swish 并不正确。对于训练 Swish 网络，我们发现略微降低用于训练 ReLU 网络的学习率效果很好。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
	<entry>
		<id>https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/zh&amp;diff=12892&amp;oldid=prev</id>
		<title>DeployBot: Clear fuzzy flag</title>
		<link rel="alternate" type="text/html" href="https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/zh&amp;diff=12892&amp;oldid=prev"/>
		<updated>2026-04-27T07:36:36Z</updated>

		<summary type="html">&lt;p&gt;Clear fuzzy flag&lt;/p&gt;
&lt;a href=&quot;https://marovi.ai/index.php?title=Searching_for_Activation_Functions/paper/zh&amp;amp;diff=12892&quot;&gt;Show changes&lt;/a&gt;</summary>
		<author><name>DeployBot</name></author>
	</entry>
</feed>