Translations:Searching for Activation Functions/22/zh

    From Marovi AI

    作為參考,作者指出從 inception-v3 到 inception-ResNet-v2 整整一年的架構調優帶來了 1.3% 的提升,因此僅一行的激活函數替換所帶來的收益在經濟上是有意義的。在 WMT 2014 英語→德語上訓練的 12 層「Base Transformer」上,swish-1 在四個 newstest 集上同樣匹配或超越所有基線,最大增益出現在 newstest2016 上(比次優值高 +0.6 bleu)。