Translations:Searching for Activation Functions/22/zh

    From Marovi AI

    作为参考,作者指出从 inception-v3 到 inception-ResNet-v2 整整一年的架构调优带来了 1.3% 的提升,因此仅一行的激活函数替换所带来的收益在经济上是有意义的。在 WMT 2014 英语→德语上训练的 12 层“Base Transformer”上,swish-1 在四个 newstest 集上同样匹配或超越所有基线,最大增益出现在 newstest2016 上(比次优值高 +0.6 bleu)。