Translations:Searching for Activation Functions/27/es

    From Marovi AI

    Tras su publicación, Swish se incorporó a los frameworks principales (p. ej. tf.nn.swish) y se adoptó en arquitecturas de producción como EfficientNet. La variante Hard Swish — una aproximación lineal a trozos definida como $ x \cdot \mathrm{ReLU6}(x + 3)/6 $ — se introdujo en MobileNetV3 para recuperar las ganancias de precisión de Swish manteniendo bajo coste en hardware móvil. GELU fue posteriormente popularizada por BERT y la familia GPT, donde se convirtió en la activación predeterminada en los bloques feed-forward de Transformer, reivindicando la categoría más amplia que Swish ayudó a llevar al mainstream.