Translations:Searching for Activation Functions/27/zh
发布之后,swish 被加入主流框架(例如 tf.nn.swish),并被诸如 EfficientNet 等生产级架构采用。Hard swish 变体 —— 定义为 $ x \cdot \mathrm{ReLU6}(x + 3)/6 $ 的分段线性近似 —— 在 MobileNetV3 中引入,以在保持移动端硬件低成本的同时恢复 swish 的准确率增益。gelu 本身后来由 BERT 和 gpt 系列推广,在 Transformer 前馈块中成为默认的激活函数,验证了 swish 帮助主流化的更广泛类别。