DeployBot: Batch translate Deep Residual Learning for Image Recognition unit 27 -> es

2026-04-27T04:15:43Z

Batch translate Deep Residual Learning for Image Recognition unit 27 -> es

New page

<languages />

{{PaperInfobox
| topic_area = Deep Learning
| difficulty = Research
| authors = Kaiming He; Xiangyu Zhang; Shaoqing Ren; Jian Sun
| year = 2016
| venue = CVPR
| arxiv_id = 1512.03385
| source_url = https://arxiv.org/abs/1512.03385
| pdf_url = https://arxiv.org/pdf/1512.03385
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''Deep Residual Learning for Image Recognition''' es un artículo de 2016 de He et al. de Microsoft Research que introdujo las '''redes residuales''' (ResNets), un marco para entrenar redes neuronales extremadamente profundas mediante '''conexiones de salto''' (también llamadas conexiones de atajo). El artículo demostró que las redes con más de 100 capas podían entrenarse de manera efectiva, obteniendo el primer lugar en la competencia de clasificación de imágenes ILSVRC 2015 con una tasa de error top-5 del 3,57%.

== Resumen ==

A medida que las redes neuronales se hicieron más profundas a mediados de la década de 2010, los investigadores observaron un '''problema de degradación''' contraintuitivo: agregar más capas a una red eventualmente causaba que la precisión de entrenamiento se degradara, no por sobreajuste sino por dificultad de optimización. Una red simple de 56 capas tuvo peor desempeño que una red de 20 capas tanto en los conjuntos de entrenamiento como de prueba, lo que indica que las redes más profundas eran más difíciles de optimizar en lugar de simplemente ser más propensas al sobreajuste.

He et al. propusieron que en lugar de aprender directamente las asignaciones subyacentes deseadas, las capas deberían aprender '''funciones residuales''' con referencia a las entradas de la capa. Esta reformulación, implementada mediante conexiones de atajo que omiten una o más capas, hizo sustancialmente más fácil optimizar redes muy profundas y permitió el entrenamiento de arquitecturas con hasta 152 capas (y experimentalmente más de 1.000 capas) sin degradación.

== Contribuciones Clave ==

* '''Marco de aprendizaje residual''': Una reformulación donde las capas de la red aprenden funciones residuales <math>F(x) = H(x) - x</math> en lugar de asignaciones no referenciadas <math>H(x)</math>, con conexiones de atajo de identidad que pasan la entrada directamente a capas más profundas.
* '''Redes extremadamente profundas''': Entrenamiento exitoso de redes con 152 capas para ImageNet y más de 1.000 capas en CIFAR-10, superando ampliamente la profundidad de arquitecturas anteriores.
* '''Resultados de vanguardia''': Primer lugar en las competencias de clasificación, detección y localización del ILSVRC 2015, así como primer lugar en las competencias de detección y segmentación del COCO 2015.
* '''Conocimiento generalizable''': El principio de aprendizaje residual demostró ser aplicable mucho más allá de la clasificación de imágenes, influyendo en arquitecturas en todas las áreas del aprendizaje profundo.

== Métodos ==

La idea central es engañosamente simple. Para una pila de capas destinadas a ajustar una asignación deseada <math>H(x)</math>, en lugar de ajustar <math>H(x)</math> directamente, se encarga a las capas ajustar el residuo:

<math>F(x) := H(x) - x</math>

La asignación original se reformula entonces como <math>H(x) = F(x) + x</math>. Esto se implementa agregando una '''conexión de atajo de identidad''' que omite una o más capas:

<math>y = F(x, \{W_i\}) + x</math>

donde <math>F(x, \{W_i\})</math> representa la asignación residual a aprender (típicamente dos o tres capas convolucionales con normalización por lotes y activaciones ReLU). La suma es elemento por elemento y requiere que <math>F</math> y <math>x</math> tengan las mismas dimensiones. Cuando las dimensiones difieren (por ejemplo, en etapas de submuestreo), se aplica una proyección lineal <math>W_s</math> al atajo:

<math>y = F(x, \{W_i\}) + W_s x</math>

La hipótesis es que es más fácil para una red aprender una pequeña perturbación residual <math>F(x) \approx 0</math> que aprender una asignación de identidad desde cero. Si la función óptima está cerca de la identidad, la formulación residual facilita que el optimizador empuje los pesos hacia cero en lugar de ajustar una identidad a través de capas no lineales.

El artículo presentó varias variantes de ResNet: ResNet-18, ResNet-34, ResNet-50, ResNet-101 y ResNet-152. Las variantes más profundas (50+) usan un '''diseño de cuello de botella''' con convoluciones 1x1, 3x3 y 1x1 para reducir el costo computacional manteniendo la capacidad representacional.

== Resultados ==

En el conjunto de validación de ImageNet, ResNet-152 logró una tasa de error top-5 del 3,57% utilizando un conjunto de modelos, superando todos los enfoques anteriores y ganando la competencia ILSVRC 2015. Como modelo único, ResNet-152 logró un error top-5 del 4,49%, sustancialmente por debajo del ganador de 2014, GoogLeNet (6,67%).

La evidencia crítica para el marco de aprendizaje residual provino de comparaciones controladas: una ResNet de 34 capas superó a una ResNet de 18 capas, mientras que una red simple de 34 capas tuvo un desempeño ''peor'' que una red simple de 18 capas. Esto demostró directamente que las conexiones de salto resolvían el problema de degradación.

En CIFAR-10, los autores entrenaron redes con más de 1.000 capas, demostrando que las redes residuales extremadamente profundas aún podían optimizarse, aunque una red de 1202 capas mostró un sobreajuste leve en comparación con una variante de 110 capas debido al pequeño tamaño del conjunto de datos.

Las representaciones aprendidas por las ResNets también se transfirieron bien a otras tareas, logrando resultados de vanguardia en los benchmarks de detección y segmentación de objetos PASCAL VOC y MS COCO. La generalidad de estas mejoras confirmó que los beneficios del aprendizaje residual se extendían mucho más allá de la clasificación a tareas de predicción densa. Los extractores de características basados en ResNet se convirtieron en el backbone estándar para Faster R-CNN, Mask R-CNN y Feature Pyramid Networks.

== Impacto ==

ResNet es uno de los artículos más citados e influyentes en aprendizaje profundo. La conexión residual se convirtió en un bloque de construcción fundamental adoptado en prácticamente todas las arquitecturas profundas posteriores, incluyendo los Transformers (que usan conexiones residuales alrededor de cada subcapa de attention y feed-forward), DenseNets, U-Nets y arquitecturas convolucionales modernas. La idea de que las asignaciones de identidad facilitan la optimización en redes profundas moldeó profundamente tanto la comprensión teórica como el diseño práctico de arquitecturas.

ResNet ganó el premio al Mejor Artículo de 2016 en CVPR. A partir de 2026, las variantes de ResNet siguen siendo líneas base competitivas en visión por computadora y se encuentran entre las arquitecturas backbone más utilizadas para el aprendizaje por transferencia.

La simplicidad matemática de la conexión residual — sumar la entrada a la salida de un bloque — desmiente su profundo impacto. Esta única idea permitió entrenar redes que eran un orden de magnitud más profundas de lo que era previamente factible, y el principio ha demostrado ser esencial en arquitecturas muy alejadas del contexto original de clasificación de imágenes, incluyendo síntesis de voz, procesamiento de lenguaje natural y computación científica.

El trabajo teórico posterior demostró que las conexiones de salto ayudan a que los gradientes fluyan a través de redes muy profundas al proporcionar caminos más cortos durante la backpropagation, mitigando efectivamente el problema del vanishing gradient que durante mucho tiempo aquejó al entrenamiento de redes profundas. El artículo ha acumulado más de 200.000 citas, lo que lo convierte en uno de los trabajos más referenciados en toda la ciencia.

Los modelos ResNet preentrenados están disponibles en todos los principales frameworks de aprendizaje profundo, lo que los convierte en uno de los puntos de partida más accesibles para el aprendizaje por transferencia en visión por computadora.

== Véase también ==

* [[ImageNet Classification with Deep CNNs]]
* [[Batch Normalization Accelerating Deep Network Training]]
* [[Dropout A Simple Way to Prevent Overfitting]]

== Referencias ==

* He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. ''Proceedings of CVPR 2016''. [https://arxiv.org/abs/1512.03385 arXiv:1512.03385]
* Simonyan, K. & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ''ICLR 2015''.
* He, K., Zhang, X., Ren, S., & Sun, J. (2016). Identity Mappings in Deep Residual Networks. ''ECCV 2016''. arXiv:1603.05027.

[[Category:Deep Learning]] [[Category:Research]] [[Category:Research Papers]]

Deep Residual Learning for Image Recognition/es - Revision history

DeployBot: Batch translate Deep Residual Learning for Image Recognition unit 27 -> es