Deep learning/zh

Article
Topic area	Machine Learning
Difficulty	Introductory

This page is a translated version of the page Deep learning and the translation is 100% complete.

Other languages:

English
Español
中文

深度學習是機器學習的一個子領域，它使用具有許多層——以及數百萬到數十億參數——的人工神經網絡，直接從原始數據中學習分層表示。它支撐了計算機視覺、自然語言處理、語音識別和科學發現領域近期的大多數突破。

概述

經典機器學習依賴於手工設計的特徵：研究者會設計像素統計量、n-gram 計數或聲學描述符，再由相對淺層的模型將這些特徵映射到輸出。深度學習消除了這一瓶頸。深度神經網絡逐層學習自己的特徵，每個後續層都將下層的簡單模式組合成更抽象的概念。

修飾詞"深度"指的是計算圖的深度，而非任何特定的生物逼真度。現代系統通常堆疊數十到數百層，並依賴於在 2010 年代初同時成熟起來的三種相互耦合的要素：大型標註數據集、大規模並行硬體（GPU 以及後來的 TPU）和穩定的優化技術。它們共同使得訓練表徵能力遠超此前可行水平的網絡變得切實可行。

深度學習通常被認為推動了人工智慧從基於規則與特徵工程的系統轉向端到端學習範式，其中單個可微分模型被聯合訓練，以將原始輸入映射到任務輸出。

核心概念

分層表示學習——連續的層將輸入轉化為抽象程度遞增的表示；網絡自行發現特徵，而非被動接收。
分布式表示——概念被編碼為眾多單元上的激活模式，從而實現了 one-hot 或符號化方案無法企及的組合泛化。
可微分計算——每一種運算（幾乎處處）都是可微的，因此梯度可以貫穿整個模型，參數通過基於梯度的優化進行調整。
端到端訓練——從原始輸入到最終預測的整條流水線針對單一損失進行優化，從而省去了人工調整的中間階段。
通過架構引入歸納偏置——卷積編碼平移等變性，循環編碼時間局部性，注意力編碼兩兩交互；架構的選擇為數據注入了恰當的假設。
規模——經驗性的擴展定律表明，損失會按模型規模、數據集規模和計算量的冪律可預測地下降，這激勵了規模不斷擴大的模型。

歷史

深度學習的根源遠早於它如今的主導地位。感知機（Rosenblatt 1958）以及 1960 年代早期的多層模型確立了基本的神經元抽象，但因缺乏有效的隱藏層訓練方法而受到限制。1986 年 Rumelhart、Hinton 與 Williams 重新發明並推廣了反向傳播，使多層訓練變得可行；Yann LeCun 的 LeNet（1989 年提出，1990 年代逐步完善）則用卷積網絡演示了對手寫數字的端到端學習。

在 1990 年代以及 2000 年代初，神經網絡在很大程度上被支持向量機、核方法以及概率圖模型所掩蓋。研究興趣的復甦來自對深度信念網絡與無監督預訓練的工作（Hinton、Salakhutdinov、Bengio，2006 年前後），這些工作表明：只要謹慎處理初始化，深度便是可處理的。

決定性的轉折點是 AlexNet（Krizhevsky、Sutskever、Hinton，2012），它以巨大優勢贏得 ImageNet 挑戰賽，展示了在 GPU 上以 Dropout 和交叉熵目標訓練卷積網絡的實際威力。隨後的幾年裡架構進展迅速：VGG 與 GoogLeNet（2014）、ResNet（He 等人，2015）及其殘差連接、帶注意力的序列到序列模型，以及Transformer（Vaswani 等人，2017）。Transformer 進而使大型語言模型（BERT 2018、GPT-2 2019、GPT-3 2020）以及現代多模態系統成為可能。

主要方法

典型的深度模型是一個參數化函數 $f_\theta : \mathcal{X} \to \mathcal{Y}$ ，通過最小化經驗風險進行訓練：

\mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell\bigl(f_\theta(x_i),\, y_i\bigr) + \lambda\, R(\theta)

其中 $\ell$ 是逐樣本的損失（例如分類使用交叉熵，回歸使用平方誤差）， $$ R $$ 為可選的正則化項。梯度 $\nabla_\theta \mathcal{L}$ 通過反向傳播計算，參數則使用隨機梯度下降或諸如 Adam 這樣的自適應方法進行更新：

\theta_{t+1} = \theta_t - \eta\, \widehat{\nabla}_\theta \mathcal{L}(\theta_t)

占主導地位的架構家族包括：

卷積網絡——面向網格結構數據的平移等變特徵提取器；視覺領域的基石。
循環網絡（LSTM、GRU）——面向序列、攜帶狀態的模型，是早期語音與語言研究的核心。
Transformer——圍繞注意力機制構建，其輸出按 $\operatorname{Attention}(Q,K,V)=\operatorname{softmax}(QK^\top/\sqrt{d_k})V$ 計算；如今是語言任務的默認選擇，並日益主導視覺和音頻領域。
圖神經網絡——將卷積推廣到節點與邊，用於分子、引用網絡和社交圖譜。
自編碼器與變分自編碼器——編碼器–解碼器對，訓練用於壓縮與重構，適用於表示學習和生成。
生成對抗網絡——生成器與判別器在極小極大博弈中對抗訓練，以生成逼真的樣本。
擴散模型——學習反演漸進加噪過程的生成模型，在現代圖像與視頻合成中占據主導地位。

有效的訓練依賴於一系列輔助技術：精心的初始化（Xavier、He）、歸一化（批、層、組）、正則化（Dropout、權重衰減、數據增強）以及學習率調度（預熱、餘弦衰減）。自監督和預訓練目標越來越多地被用來從無標註數據中學習通用表示，再通過微調或遷移學習適配到下游任務。

訓練範式的粗略分類：

範式	信號	典型用途
有監督	帶標註的 $$ (x, y) $$ 對	圖像分類、機器翻譯
自監督	僅由 $$ x $$ 派生的 pretext 任務	語言與視覺模型的預訓練
無監督 / 生成式	$$ x $$ 的似然	自編碼器、擴散、GAN
強化	來自環境的標量獎勵	遊戲、機器人、用於對齊的 RLHF

關聯

深度學習處於多個長期存在領域的交匯處。作為機器學習的一種形式，它繼承了偏差—方差權衡、泛化理論以及對過擬合的關注。它建立在神經網絡之上，並在信用分配上嚴重依賴反向傳播，在優化上嚴重依賴梯度下降（尤其是隨機梯度下降）。分類頭通常將 softmax 輸出與交叉熵損失結合使用，而其他損失則根據任務結構進行選擇。

在架構上，CNN 將通用框架專門化以處理空間數據，RNN 處理序列數據，而 Transformer 通過注意力處理一般的集合結構與序列結構數據。在語言與搜索中，詞嵌入是深度模型能夠學習離散符號有意義連續表示的早期例證。現代強化學習、推薦系統以及計算科學的眾多領域，如今都依賴深度模型作為可即插即用的函數逼近器。

參見

參考文獻

LeCun, Y., Bengio, Y. and Hinton, G. (2015). "Deep learning". Nature, 521, 436–444.
Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning. MIT Press.
Rumelhart, D. E., Hinton, G. E. and Williams, R. J. (1986). "Learning representations by back-propagating errors". Nature, 323, 533–536.
Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012). "ImageNet Classification with Deep Convolutional Neural Networks". NeurIPS.
He, K., Zhang, X., Ren, S. and Sun, J. (2016). "Deep Residual Learning for Image Recognition". CVPR.
Vaswani, A. et al. (2017). "attention Is All You Need". NeurIPS.
Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks, 61, 85–117.