Translations:Searching for Activation Functions/27/zh

    From Marovi AI

    发布后,Swish 被加入到主流框架(例如 tf.nn.swish)中,并被诸如 EfficientNet 之类的生产架构所采用。变体 Hard Swish——一种分段线性近似,定义为 $ x \cdot \mathrm{ReLU6}(x + 3)/6 $——在 MobileNetV3 中引入,以在移动硬件上以低成本恢复 Swish 的精度收益。GELU 本身后来由 BERT 和 GPT 系列推广,在那里它成为 Transformer 前馈模块中默认的激活函数,进一步印证了 Swish 帮助带入主流的更广泛类别。