DeployBot: Batch translate Searching for Activation Functions unit 30 → es

2026-04-27T07:58:40Z

Batch translate Searching for Activation Functions unit 30 → es

New page

<languages />
{{PaperTabs}}
{{PaperInfobox
| topic_area = Machine Learning
| difficulty = Research
| authors = Prajit Ramachandran; Barret Zoph; Quoc V. Le
| year = 2017
| arxiv_id = 1710.05941
| source_url = https://arxiv.org/abs/1710.05941
| pdf_url = https://arxiv.org/pdf/1710.05941.pdf
}}
{{ContentMeta
| generated_by = claude-code-direct
| model_used = claude-opus-4-7
| generated_date = 2026-04-27
}}

'''Searching for Activation Functions''' es un artículo de 2017 de Prajit Ramachandran, Barret Zoph y Quoc V. Le, de Google Brain, que utiliza búsqueda automatizada para descubrir funciones de activación escalares para redes neuronales profundas. La búsqueda produce una familia de funciones simples y no monótonas, de las cuales los autores destacan una — '''Swish''', definida como <math>f(x) = x \cdot \sigma(\beta x)</math> — y muestran que iguala o supera de forma consistente a la ReLU en modelos profundos sobre benchmarks de clasificación de imágenes y traducción automática. El artículo se presentó en el track de talleres de [[International Conference on Learning Representations|ICLR]] 2018.

== Resumen ==

Las funciones de activación están en el corazón de toda red profunda y tienen un efecto importante sobre la optimización y la generalización. A pesar de una larga lista de alternativas diseñadas a mano — Leaky ReLU, PReLU, ELU, SELU, GELU, Softplus — la [[Rectified linear unit|ReLU]] <math>f(x) = \max(x, 0)</math> ha seguido siendo el valor por defecto de facto, ya que las funciones competidoras tendían a producir mejoras inconsistentes entre modelos y conjuntos de datos.

En lugar de diseñar a mano otra función de activación más, los autores aplican [[Neural architecture search|búsqueda automatizada]] sobre un espacio composicional de primitivas unarias y binarias. La mejor función descubierta, a la que llaman Swish, es estructuralmente cercana a ReLU pero suave y no monótona. Los autores muestran que reemplazar simplemente las ReLU por Swish mejora la precisión en una amplia variedad de arquitecturas tipo preentrenadas con un ajuste mínimo de hiperparámetros, y que el resultado es lo bastante robusto como para generalizar desde las pequeñas redes hijas en CIFAR-10 usadas durante la búsqueda hasta modelos a escala de ImageNet y de traducción.

== Contribuciones principales ==

* Un espacio de búsqueda composicional para funciones de activación escalares, construido a partir de una pequeña biblioteca de funciones unarias (p. ej. <math>x</math>, <math>x^2</math>, <math>\sigma(x)</math>, <math>\tanh(x)</math>, <math>\sin(x)</math>) y binarias (p. ej. <math>x_1 + x_2</math>, <math>x_1 \cdot x_2</math>, <math>\max</math>, <math>\sigma(x_1)\cdot x_2</math>).
* Un procedimiento de búsqueda que combina enumeración exhaustiva para espacios pequeños con un controlador RNN entrenado con [[Reinforcement learning|RL]] (usando [[Proximal policy optimization|PPO]]) para espacios demasiado grandes para enumerar.
* El descubrimiento y análisis detallado de Swish, <math>f(x) = x \cdot \sigma(\beta x)</math>, donde <math>\beta</math> es una constante o un parámetro entrenable por canal.
* Una comparación empírica extensa frente a siete funciones de activación de referencia (ReLU, LReLU, PReLU, Softplus, ELU, SELU, GELU) en CIFAR-10/100, [[ImageNet]] y traducción WMT 2014 inglés→alemán.

== Métodos ==

El espacio de búsqueda trata las funciones de activación como aplicaciones repetidas de una "unidad central" de la forma <math>b(u_1(x_1), u_2(x_2))</math>, donde <math>u_1, u_2</math> son funciones unarias, <math>b</math> es una función binaria, y las entradas <math>x_1, x_2</math> son la preactivación de la capa <math>x</math> o la salida de una unidad central anterior. Se construyen distintos espacios de búsqueda variando el número de unidades centrales y las primitivas disponibles.

Las funciones de activación candidatas se evalúan entrenando una pequeña "red hija" — una [[Residual neural network|ResNet]]-20 sobre [[CIFAR-10]] durante 10K pasos — y reportando la precisión de validación. Para espacios pequeños los autores enumeran de forma exhaustiva; para espacios del orden de <math>10^{12}</math> entrenan un controlador RNN con aprendizaje por refuerzo para maximizar la precisión de validación, usando un promedio móvil exponencial de las recompensas como baseline. La búsqueda se paraleliza entre máquinas trabajadoras que extraen funciones candidatas de una cola, entrenan una red hija y reportan la precisión de validación final al algoritmo de búsqueda.

Tras la búsqueda, los principales candidatos se prueban a fondo en tres arquitecturas más grandes en CIFAR — preactivation ResNet-164, Wide ResNet 28-10 y DenseNet 100-12 — para descartar funciones que sobreajusten al entorno reducido de la red hija. Seis de las ocho mejores funciones novedosas transfieren; dos de ellas, <math>x \cdot \sigma(\beta x)</math> y <math>\max(x, \sigma(x))</math>, igualan o superan a ReLU en todos los modelos. Los autores deciden entonces evaluar a escala <math>x \cdot \sigma(\beta x)</math>, en parte porque los experimentos iniciales sugerían una mejor generalización.

La búsqueda revela varios patrones recurrentes: las funciones simples superan a las complejas (1–2 unidades centrales bastan), las funciones de cabeza tienden a usar la preactivación cruda como una de las entradas de la operación binaria final (replicando la estructura de ReLU), y las funciones basadas en división rara vez funcionan porque sus salidas explotan cerca de cero. Entre los principales candidatos, los autores destacan

:<math>f(x) = x \cdot \sigma(\beta x), \qquad \sigma(z) = (1 + \exp(-z))^{-1}</math>

a la que llaman Swish. Fijar <math>\beta = 1</math> recupera la Sigmoid-weighted Linear Unit (SiL) de Elfwing et al.; fijar <math>\beta \to \infty</math> recupera ReLU; fijar <math>\beta = 0</math> da la función lineal <math>x/2</math>. Por tanto, Swish puede verse como un interpolante suave entre el comportamiento lineal y el de ReLU, donde <math>\beta</math> controla el grado de no linealidad.

La primera derivada de Swish es

:<math>f'(x) = \sigma(\beta x) + \beta x \cdot \sigma(\beta x)\bigl(1 - \sigma(\beta x)\bigr) = \beta f(x) + \sigma(\beta x)\bigl(1 - \beta f(x)\bigr)</math>

de modo que Swish es suave en todo punto, no acotada por arriba, acotada por abajo y no monótona — desciende por debajo de cero en una pequeña "protuberancia" para <math>x</math> aproximadamente entre <math>-5</math> y <math>0</math>, antes de aproximarse a cero por debajo cuando <math>x \to -\infty</math>. Los autores muestran empíricamente que una gran fracción de las preactivaciones cae dentro de esta protuberancia y argumentan que es un aspecto esencial del comportamiento de la función. La forma de la protuberancia se controla con <math>\beta</math>: cuando <math>\beta</math> se trata como parámetro entrenable por canal, los valores ajustados en Mobile NASNet-A se distribuyen entre 0 y 1.5 con un pico cercano a 1, lo que sugiere que los modelos sí explotan esa flexibilidad adicional.

La implementación es un cambio de una sola línea en los frameworks modernos (p. ej. <code>x * tf.sigmoid(beta * x)</code>). Los autores señalan que el parámetro de escala de BatchNorm debe permanecer activo (algunas bibliotecas lo desactivan por defecto para ReLU) y que las tasas de aprendizaje suelen requerir valores ligeramente menores que las ajustadas para ReLU.

== Resultados ==

En CIFAR-10 y CIFAR-100, Swish y Swish-1 igualan o superan a ReLU en todos los modelos considerados (preactivation ResNet-164, Wide ResNet 28-10, DenseNet 100-12). El "mejor baseline" varía según el modelo — Softplus, GELU y PReLU lideran filas distintas — pero Swish es la única función que se mantiene de forma consistente en o cerca del primer puesto.

En la clasificación sobre [[ImageNet]], reemplazar ReLU por Swish da:

* '''Mobile NASNet-A''': +1.4% de precisión top-1 en promedio sobre tres ejecuciones (<math>73.5 \to 74.9</math>%).
* '''Inception-ResNet-v2''': +0.5–0.6% top-1 (<math>79.6 \to 80.2</math>%).
* '''MobileNet''': +2.2% top-1 (<math>72.0 \to 74.2</math>%).
* '''Inception-v3''' e '''Inception-v4''': aproximadamente +0.1% top-1, dentro del ruido.

Como referencia, los autores señalan que un año entero de ajustes arquitectónicos entre Inception-v3 e Inception-ResNet-v2 produjo una mejora del 1.3%, así que las ganancias derivadas de un cambio de activación de una sola línea son económicamente significativas. Sobre un "Base [[Transformer (machine learning model)|Transformer]]" de 12 capas entrenado en WMT 2014 inglés→alemán, Swish-1 también iguala o supera a todos los baselines en cuatro newstest, con la mayor ganancia en newstest2016 (+0.6 BLEU sobre el siguiente mejor).

Una prueba de signos resumida frente a cada baseline (contando victorias, empates y derrotas en nueve modelos) muestra que Swish gana estrictamente más veces que pierde frente a las siete funciones ReLU, LReLU, PReLU, Softplus, ELU, SELU y GELU.

Las ganancias de Swish son mayores en arquitecturas convolucionales de tamaño móvil (Mobile NASNet-A, MobileNet) y en el Transformer, mientras que en Inception-v4 la diferencia se reduce hasta el ruido. Softplus, el siguiente baseline más consistente, es competitivo en clasificadores de imágenes grandes pero se hunde en la traducción automática (más de 3 BLEU por debajo de ReLU en los newstest de WMT), ilustrando la inconsistencia entre dominios que el artículo se propone superar.

== Impacto ==

El artículo de Swish tuvo una influencia práctica desproporcionada respecto a su novedad teórica. De hecho, la función ya había sido propuesta de forma independiente con el nombre Sigmoid-weighted Linear Unit (SiL) por Elfwing, Uchibe y Doya en un contexto de [[reinforcement learning|aprendizaje por refuerzo]], y la estrechamente relacionada [[Gaussian Error Linear Unit|GELU]] (Hendrycks y Gimpel, 2016) comparte la misma forma suave y no monótona. La contribución aquí es la primera demostración empírica sistemática de que tales funciones mejoran la precisión en modelos de imagen y lenguaje a gran escala, junto con la receta — buscar sobre un espacio composicional usando una red hija como proxy rápido — que la produjo.

Tras su publicación, Swish se incorporó a los frameworks principales (p. ej. <code>tf.nn.swish</code>) y se adoptó en arquitecturas de producción como [[EfficientNet]]. La variante '''Hard Swish''' — una aproximación lineal por tramos definida como <math>x \cdot \mathrm{ReLU6}(x + 3)/6</math> — se introdujo en MobileNetV3 para recuperar las ganancias de precisión de Swish con un coste reducido en hardware móvil. El propio GELU fue popularizado más adelante por [[BERT (language model)|BERT]] y la familia GPT, donde se convirtió en la activación por defecto en los bloques feed-forward de los [[Transformer (machine learning model)|Transformers]], reivindicando la categoría más amplia que Swish ayudó a establecer.

El artículo también ayudó a legitimar el uso de la búsqueda automatizada para componentes de bajo nivel en redes neuronales, complementando los trabajos paralelos del equipo Google Brain sobre búsqueda de arquitecturas (NASNet) y búsqueda de optimizadores. Los autores enlazan explícitamente sus hallazgos con el argumento de que "las mejoras arquitectónicas reducen la necesidad de que componentes individuales preserven gradientes", surgido tras las [[Residual neural network|conexiones residuales]] y la atención al estilo Transformer, que eliminaron muchos de los obstáculos para los que originalmente se diseñó ReLU.

Una lectura habitual y errónea del artículo es que "Swish supera a ReLU en todas partes"; el registro experimental real es más matizado. En clasificadores de imágenes grandes la diferencia es pequeña y depende de la arquitectura — Inception-v4 es esencialmente un empate — y cualquier reentrenamiento de estas redes debería reajustar las tasas de aprendizaje desde cero en lugar de reutilizar los planes ajustados a ReLU. La conclusión robusta es comparativa: a través de nueve arquitecturas y tres dominios, Swish es el valor por defecto menos malo, y el procedimiento de búsqueda puede plausiblemente repetirse para encontrar activaciones especializadas a una nueva arquitectura.

== Véase también ==

* [[Rectified linear unit]]
* [[Gaussian Error Linear Unit]]
* [[Neural architecture search]]
* [[Transformer (machine learning model)]]
* [[ImageNet]]

== Referencias ==

* Ramachandran, P., Zoph, B., & Le, Q. V. (2017). ''Searching for Activation Functions''. arXiv:1710.05941.
* Elfwing, S., Uchibe, E., & Doya, K. (2017). ''Sigmoid-weighted linear units for neural network function approximation in reinforcement learning''. arXiv:1702.03118.
* Hendrycks, D., & Gimpel, K. (2016). ''Gaussian Error Linear Units (GELUs)''. arXiv:1606.08415.
* Zoph, B., & Le, Q. V. (2017). ''Neural Architecture Search with Reinforcement Learning''. ICLR.
* Bello, I., Zoph, B., Vasudevan, V., & Le, Q. V. (2017). ''Neural Optimizer Search with Reinforcement Learning''. ICML.
* Howard, A., et al. (2019). ''Searching for MobileNetV3''. ICCV — introduce Hard Swish.

[[Category:Machine Learning]]
[[Category:Research]]
[[Category:Research Papers]]

Searching for Activation Functions/es - Revision history

DeployBot: Batch translate Searching for Activation Functions unit 30 → es