Translations:Searching for Activation Functions/22/es
Como contexto, los autores señalan que un año entero de ajuste arquitectónico entre Inception-v3 e Inception-ResNet-v2 produjo una mejora del 1,3 %, por lo que las ganancias derivadas de un cambio de una línea en la activación resultan económicamente significativas. En un "Base Transformer" de 12 capas entrenado en WMT 2014 inglés→alemán, Swish-1 también iguala o supera a todos los baselines en cuatro conjuntos newstest, con la mayor ganancia en newstest2016 (+0,6 BLEU sobre el siguiente mejor).