Deep Residual Learning for Image Recognition/zh

    From Marovi AI
    This page is a translated version of the page Deep Residual Learning for Image Recognition and the translation is 100% complete.
    Other languages:
    Research Paper
    Authors Kaiming He; Xiangyu Zhang; Shaoqing Ren; Jian Sun
    Year 2016
    Venue CVPR
    Topic area Deep Learning
    Difficulty Research
    arXiv 1512.03385
    PDF Download PDF

    Deep Residual Learning for Image Recognition是 He 等人于 2016 年在微软研究院发表的论文,提出了残差网络(ResNets),这是一种使用跳跃连接(也称为快捷连接)训练极深神经网络的框架。该论文证明了超过 100 层的网络可以被有效训练,并以 3.57% 的 top-5 错误率赢得 ILSVRC 2015 图像分类竞赛的第一名。

    概述

    随着神经网络在 2010 年代中期变得越来越深,研究人员观察到一个反直觉的退化问题:向网络添加更多的层最终会导致训练准确率下降,这不是因为过拟合,而是因为优化困难。一个 56 层的普通网络在训练集和测试集上的表现都比 20 层的网络差,这表明更深的网络更难优化,而不仅仅是更容易过拟合。

    He 等人提出,与其直接学习所需的底层映射,不如让各层学习以层输入为参考的残差函数。这种重新表述通过跳过一层或多层的快捷连接来实现,大大简化了极深网络的优化,并使最多 152 层(实验中超过 1000 层)的架构能够在不发生退化的情况下进行训练。

    主要贡献

    • 残差学习框架:一种重新表述,其中网络层学习残差函数 $ F(x) = H(x) - x $,而不是无参考的映射 $ H(x) $,并通过恒等快捷连接将输入直接传递给更深层。
    • 极深网络:成功训练了用于 ImageNet 的 152 层网络以及在 CIFAR-10 上超过 1000 层的网络,远远超过了先前架构的深度。
    • 最先进的结果:在 ILSVRC 2015 分类、检测和定位赛道中获得第一名,并在 COCO 2015 检测和分割赛道中获得第一名。
    • 可泛化的洞见:残差学习原理被证明适用于远超图像分类的领域,影响了深度学习所有领域的架构。

    方法

    核心思想看似简单。对于一组旨在拟合所需映射 $ H(x) $ 的层堆叠,与其直接拟合 $ H(x) $,不如让这些层去拟合残差:

    $ F(x) := H(x) - x $

    原始映射随后被重新表述为 $ H(x) = F(x) + x $。这通过添加一个跳过一层或多层的恒等快捷连接来实现:

    $ y = F(x, \{W_i\}) + x $

    其中 $ F(x, \{W_i\}) $ 表示要学习的残差映射(通常是两到三个带有批量归一化和 ReLU 激活的卷积层)。该加法是逐元素的,要求 $ F $$ x $ 具有相同的维度。当维度不同时(例如在下采样阶段),对快捷连接应用一个线性投影 $ W_s $

    $ y = F(x, \{W_i\}) + W_s x $

    其假设是,对于一个网络来说,学习一个小的残差扰动 $ F(x) \approx 0 $ 比从头学习一个恒等映射更容易。如果最优函数接近恒等映射,残差形式使求解器可以轻松地将权重推向零,而不必通过非线性层来拟合恒等映射。

    该论文提出了几种 ResNet 变体:ResNet-18、ResNet-34、ResNet-50、ResNet-101 和 ResNet-152。更深的变体(50 层及以上)使用瓶颈设计,采用 1x1、3x3 和 1x1 卷积,在保持表示能力的同时降低计算成本。

    结果

    在 ImageNet 验证集上,使用模型集成的 ResNet-152 达到了 3.57% 的 top-5 错误率,超越了所有先前的方法并赢得了 ILSVRC 2015 竞赛。作为单一模型,ResNet-152 实现了 4.49% 的 top-5 错误率,大大低于 2014 年的获胜者 GoogLeNet(6.67%)。

    残差学习框架的关键证据来自受控对比:34 层的 ResNet 优于 18 层的 ResNet,而 34 层的普通网络则比 18 层的普通网络表现更差。这直接证明了跳跃连接解决了退化问题。

    在 CIFAR-10 上,作者训练了超过 1000 层的网络,表明极深的残差网络仍然可以被优化,尽管由于数据集规模较小,1202 层的网络相比 110 层的变体表现出轻微的过拟合。

    ResNet 学到的表示也能很好地迁移到其他任务,在 PASCAL VOC 和 MS COCO 目标检测与分割基准上取得了最先进的结果。这些改进的普遍性证实了残差学习的好处远不止于分类,还延伸到密集预测任务。基于 ResNet 的特征提取器成为 Faster R-CNN、Mask R-CNN 和 Feature Pyramid Networks 的标准 backbone。

    影响

    ResNet 是深度学习中被引用最多、最具影响力的论文之一。残差连接成为几乎所有后续深度架构所采用的基本构建块,包括 Transformers(在每个 attention 和前馈子层周围使用残差连接)、DenseNets、U-Nets 以及现代卷积架构。恒等映射有助于深度网络优化的洞见深刻地塑造了理论理解和实际架构设计。

    ResNet 获得了 CVPR 2016 最佳论文奖。截至 2026 年,ResNet 变体仍然是计算机视觉中具有竞争力的基线,并且是迁移学习中最常用的 backbone 架构之一。

    残差连接的数学简洁性——将输入加到块的输出上——掩盖了它的深远影响。仅凭这一个想法就使得训练比以往可行的深度高出一个数量级的网络成为可能,而且这一原则已被证明对远离最初图像分类背景的架构至关重要,包括语音合成、自然语言处理和科学计算。

    后续的理论工作表明,跳跃连接通过在 backpropagation 期间提供更短的路径,有助于梯度在极深网络中流动,有效缓解了长期困扰深度网络训练的 vanishing gradient 问题。该论文已积累超过 20 万次引用,使其成为整个科学界被引用最多的著作之一。

    预训练的 ResNet 模型在所有主流的深度学习框架中都可用,使其成为计算机视觉中迁移学习最易获取的起点之一。

    参见

    参考文献

    • He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of CVPR 2016. arXiv:1512.03385
    • Simonyan, K. & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR 2015.
    • He, K., Zhang, X., Ren, S., & Sun, J. (2016). Identity Mappings in Deep Residual Networks. ECCV 2016. arXiv:1603.05027.