Deep Residual Learning for Image Recognition/zh

    From Marovi AI
    This page is a translated version of the page Deep Residual Learning for Image Recognition and the translation is 100% complete.
    Other languages:
    Research Paper
    Authors Kaiming He; Xiangyu Zhang; Shaoqing Ren; Jian Sun
    Year 2016
    Venue CVPR
    Topic area Deep Learning
    Difficulty Research
    arXiv 1512.03385
    PDF Download PDF

    Deep Residual Learning for Image Recognition是 He 等人於 2016 年在微軟研究院發表的論文,提出了殘差網絡(ResNets),這是一種使用跳躍連接(也稱為快捷連接)訓練極深神經網絡的框架。該論文證明了超過 100 層的網絡可以被有效訓練,並以 3.57% 的 top-5 錯誤率贏得 ILSVRC 2015 圖像分類競賽的第一名。

    概述

    隨著神經網絡在 2010 年代中期變得越來越深,研究人員觀察到一個反直覺的退化問題:向網絡添加更多的層最終會導致訓練準確率下降,這不是因為過擬合,而是因為優化困難。一個 56 層的普通網絡在訓練集和測試集上的表現都比 20 層的網絡差,這表明更深的網絡更難優化,而不僅僅是更容易過擬合。

    He 等人提出,與其直接學習所需的底層映射,不如讓各層學習以層輸入為參考的殘差函數。這種重新表述通過跳過一層或多層的快捷連接來實現,大大簡化了極深網絡的優化,並使最多 152 層(實驗中超過 1000 層)的架構能夠在不發生退化的情況下進行訓練。

    主要貢獻

    • 殘差學習框架:一種重新表述,其中網絡層學習殘差函數 $ F(x) = H(x) - x $,而不是無參考的映射 $ H(x) $,並通過恆等快捷連接將輸入直接傳遞給更深層。
    • 極深網絡:成功訓練了用於 ImageNet 的 152 層網絡以及在 CIFAR-10 上超過 1000 層的網絡,遠遠超過了先前架構的深度。
    • 最先進的結果:在 ILSVRC 2015 分類、檢測和定位賽道中獲得第一名,並在 COCO 2015 檢測和分割賽道中獲得第一名。
    • 可泛化的洞見:殘差學習原理被證明適用於遠超圖像分類的領域,影響了深度學習所有領域的架構。

    方法

    核心思想看似簡單。對於一組旨在擬合所需映射 $ H(x) $ 的層堆疊,與其直接擬合 $ H(x) $,不如讓這些層去擬合殘差:

    $ F(x) := H(x) - x $

    原始映射隨後被重新表述為 $ H(x) = F(x) + x $。這通過添加一個跳過一層或多層的恆等快捷連接來實現:

    $ y = F(x, \{W_i\}) + x $

    其中 $ F(x, \{W_i\}) $ 表示要學習的殘差映射(通常是兩到三個帶有批量歸一化和 ReLU 激活的卷積層)。該加法是逐元素的,要求 $ F $$ x $ 具有相同的維度。當維度不同時(例如在下採樣階段),對快捷連接應用一個線性投影 $ W_s $

    $ y = F(x, \{W_i\}) + W_s x $

    其假設是,對於一個網絡來說,學習一個小的殘差擾動 $ F(x) \approx 0 $ 比從頭學習一個恆等映射更容易。如果最優函數接近恆等映射,殘差形式使求解器可以輕鬆地將權重推向零,而不必通過非線性層來擬合恆等映射。

    該論文提出了幾種 ResNet 變體:ResNet-18、ResNet-34、ResNet-50、ResNet-101 和 ResNet-152。更深的變體(50 層及以上)使用瓶頸設計,採用 1x1、3x3 和 1x1 卷積,在保持表示能力的同時降低計算成本。

    結果

    在 ImageNet 驗證集上,使用模型集成的 ResNet-152 達到了 3.57% 的 top-5 錯誤率,超越了所有先前的方法並贏得了 ILSVRC 2015 競賽。作為單一模型,ResNet-152 實現了 4.49% 的 top-5 錯誤率,大大低於 2014 年的獲勝者 GoogLeNet(6.67%)。

    殘差學習框架的關鍵證據來自受控對比:34 層的 ResNet 優於 18 層的 ResNet,而 34 層的普通網絡則比 18 層的普通網絡表現更差。這直接證明了跳躍連接解決了退化問題。

    在 CIFAR-10 上,作者訓練了超過 1000 層的網絡,表明極深的殘差網絡仍然可以被優化,儘管由於數據集規模較小,1202 層的網絡相比 110 層的變體表現出輕微的過擬合。

    ResNet 學到的表示也能很好地遷移到其他任務,在 PASCAL VOC 和 MS COCO 目標檢測與分割基準上取得了最先進的結果。這些改進的普遍性證實了殘差學習的好處遠不止於分類,還延伸到密集預測任務。基於 ResNet 的特徵提取器成為 Faster R-CNN、Mask R-CNN 和 Feature Pyramid Networks 的標準 backbone。

    影響

    ResNet 是深度學習中被引用最多、最具影響力的論文之一。殘差連接成為幾乎所有後續深度架構所採用的基本構建塊,包括 Transformers(在每個 attention 和前饋子層周圍使用殘差連接)、DenseNets、U-Nets 以及現代卷積架構。恆等映射有助於深度網絡優化的洞見深刻地塑造了理論理解和實際架構設計。

    ResNet 獲得了 CVPR 2016 最佳論文獎。截至 2026 年,ResNet 變體仍然是計算機視覺中具有競爭力的基線,並且是遷移學習中最常用的 backbone 架構之一。

    殘差連接的數學簡潔性——將輸入加到塊的輸出上——掩蓋了它的深遠影響。僅憑這一個想法就使得訓練比以往可行的深度高出一個數量級的網絡成為可能,而且這一原則已被證明對遠離最初圖像分類背景的架構至關重要,包括語音合成、自然語言處理和科學計算。

    後續的理論工作表明,跳躍連接通過在 backpropagation 期間提供更短的路徑,有助於梯度在極深網絡中流動,有效緩解了長期困擾深度網絡訓練的 vanishing gradient 問題。該論文已積累超過 20 萬次引用,使其成為整個科學界被引用最多的著作之一。

    預訓練的 ResNet 模型在所有主流的深度學習框架中都可用,使其成為計算機視覺中遷移學習最易獲取的起點之一。

    參見

    參考文獻

    • He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of CVPR 2016. arXiv:1512.03385
    • Simonyan, K. & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR 2015.
    • He, K., Zhang, X., Ren, S., & Sun, J. (2016). Identity Mappings in Deep Residual Networks. ECCV 2016. arXiv:1603.05027.