Translations:Searching for Activation Functions/27/zh

发布后，Swish 被加入到主流框架（例如 tf.nn.swish）中，并被诸如 EfficientNet 之类的生产架构所采用。变体 Hard Swish——一种分段线性近似，定义为 $x \cdot \mathrm{ReLU6}(x + 3)/6$ ——在 MobileNetV3 中引入，以在移动硬件上以低成本恢复 Swish 的精度收益。GELU 本身后来由 BERT 和 GPT 系列推广，在那里它成为 Transformer 前馈模块中默认的激活函数，进一步印证了 Swish 帮助带入主流的更广泛类别。