Translations:Searching for Activation Functions/27/zh

    From Marovi AI

    發布之後,swish 被加入主流框架(例如 tf.nn.swish),並被諸如 EfficientNet 等生產級架構採用。Hard swish 變體 —— 定義為 $ x \cdot \mathrm{ReLU6}(x + 3)/6 $ 的分段線性近似 —— 在 MobileNetV3 中引入,以在保持移動端硬件低成本的同時恢復 swish準確率增益。gelu 本身後來由 BERTgpt 系列推廣,在 Transformer 前饋塊中成為默認的激活函數,驗證了 swish 幫助主流化的更廣泛類別。