Gaussian Processes/zh
| Article | |
|---|---|
| Topic area | Bayesian Methods |
| Prerequisites | Linear Regression |
概述
高斯過程(GP)是一種在函數上的分佈,其性質是:函數值的任意有限集合都服從聯合高斯分佈。GP 為回歸、分類以及其他supervised learning任務提供了一種有原則的非參數貝葉斯方法:模型不再擬合一個固定維度的參數向量,而是直接在函數空間上設定先驗,並根據觀測數據將其更新為posterior。[1]預測結果伴隨着由後驗導出的校準良好的不確定性估計,這使得 GP 在貝葉斯優化、地統計學以及對昂貴模擬器的代理建模等應用中頗具吸引力。
與諸如Linear Regression或前饋神經網絡等參數化模型相比,GP 不會預先固定函數形式;其inductive bias被編碼在核(協方差)函數中,而不是在某個基函數集合中。這種靈活性帶來的代價是計算成本與訓練點數的立方成正比,這也催生了大量關於稀疏與近似推斷的研究。
直觀理解
在一個vector上的標準高斯分佈為每個坐標指定了一個均值,以及該坐標與其他每個坐標之間的協變方式。高斯過程將這一思想從有限維向量推廣到由輸入$ x \in \mathcal{X} $索引的無限集合:它在任意有限點集上的函數值上設定一個高斯分佈。如果從一個GP中採樣一個函數,並在$ n $個輸入處取值,就會得到一個$ n $維高斯隨機向量,其均值和協方差由 GP 的均值函數和核函數決定。
核編碼了關於光滑性、周期性、長度尺度和幅度的假設。在核函數下相互接近的兩個輸入會產生高度相關的輸出;相距較遠的兩個輸入則產生幾乎獨立的輸出。基於觀測數據進行條件化會將posterior固定在訓練點上,並使得不確定性隨着遠離這些點而平滑增長,在沒有附近觀測數據的區域恢復為prior。
形式化定義
在輸入域$ \mathcal{X} $上的高斯過程是一個隨機過程$ \{f(x) : x \in \mathcal{X}\} $,使得對於任意有限個輸入$ x_1, \ldots, x_n \in \mathcal{X} $,隨機vector$ (f(x_1), \ldots, f(x_n)) $都服從多變量高斯分佈。GP由一個均值函數$ m(x) = \mathbb{E}[f(x)] $和一個協方差(或核)函數$ k(x, x') = \mathbb{E}[(f(x) - m(x))(f(x') - m(x'))] $完全確定,記作
$ {\displaystyle f(\cdot) \sim \mathcal{GP}(m(\cdot), k(\cdot, \cdot)).} $
為了讓核定義一個合法的 GP,它必須是對稱且半正定的:對於任意輸入和權重,Gram 矩陣$ K_{ij} = k(x_i, x_j) $都必須是半正定的。在對目標進行中心化後,均值函數通常被設為零,因此模型的全部表達能力都來自核函數。
核函數
核決定了哪些函數在先驗上是合理的。常見的選擇包括:
- 平方指數核(RBF):$ k(x, x') = \sigma_f^2 \exp\!\left(-\tfrac{1}{2 \ell^2} \lVert x - x' \rVert^2 \right) $,產生由長度尺度$ \ell $和幅度$ \sigma_f $控制的無限次可微的光滑函數。
- Matern 核:由光滑度參數$ \nu $參數化的一族核函數,當$ \nu \to \infty $時還原為 RBF,而較小的$ \nu $(例如$ \nu = 3/2 $或$ 5/2 $)會產生更粗糙的樣本。在對物理過程建模時,通常優於 RBF。
- 周期核:$ k(x, x') = \sigma_f^2 \exp\!\left(-\tfrac{2}{\ell^2} \sin^2(\pi (x - x') / p)\right) $,用於底層函數具有周期$ p $的情形。
- 線性核:$ k(x, x') = \sigma_f^2\, x^\top x' $,使得GP等價於在原始特徵空間中的貝葉斯線性回歸。
- 組合核:基礎核的求和與乘積可以組合多種假設,例如周期核與 RBF 核之和可以同時建模季節性與緩慢趨勢。
選擇核函數及其超參數是 GP 回歸中核心的建模決策,其作用類似於參數化模型中的架構與特徵設計。
推斷與預測
考慮帶噪聲的回歸問題,觀測值滿足$ y_i = f(x_i) + \varepsilon_i $,其中$ \varepsilon_i \sim \mathcal{N}(0, \sigma_n^2) $是獨立同分佈的高斯噪聲。將訓練輸入堆疊為$ X $,目標值堆疊為$ \mathbf{y} $,並記核矩陣$ K = K(X, X) $。在$ f $上設置零均值GP先驗並對潛在函數值進行積分。訓練目標與測試點$ x_* $處預測$ f_* $的聯合分佈是高斯的,因此posterior也是高斯的,且具有閉式均值與方差:
$ {\displaystyle \bar{f}_* = k_*^\top (K + \sigma_n^2 I)^{-1} \mathbf{y},} $
$ {\displaystyle \mathbb{V}[f_*] = k(x_*, x_*) - k_*^\top (K + \sigma_n^2 I)^{-1} k_*,} $
其中$ k_* = K(X, x_*) $。均值是目標值的線性平滑器,方差在訓練點附近收縮,在遠離訓練點時增大。在實踐中,出於數值穩定性考慮,通常用$ K + \sigma_n^2 I $的 Cholesky 分解來代替直接求逆。
對於非高斯似然(例如使用伯努利似然的分類問題),後驗不再是高斯的。諸如 Laplace 近似、期望傳播或變分推斷等近似方法可以替代精確的閉式形式。
超參數學習
核的超參數$ \theta $(長度尺度、幅度、噪聲方差)通常通過最大化對數邊緣似然來學習,
$ {\displaystyle \log p(\mathbf{y} \mid X, \theta) = -\tfrac{1}{2} \mathbf{y}^\top (K_\theta + \sigma_n^2 I)^{-1} \mathbf{y} - \tfrac{1}{2} \log |K_\theta + \sigma_n^2 I| - \tfrac{n}{2} \log 2\pi.} $
第一項對數據擬合給予獎勵,第二項對模型複雜度進行懲罰,第三項是常數。這種自動化的奧卡姆剃刀在靈活性與簡約性之間取得平衡,無需單獨的驗證集,但該目標函數是非凸的,可能存在多個局部最優解。完全貝葉斯的替代方案是在$ \theta $上設置超先驗,並通過馬爾可夫鏈蒙特卡洛進行積分,這種方式更慢,但能夠量化超參數的不確定性。
計算成本與可擴展變體
精確的GP推斷需要存儲並分解一個$ n \times n $的核矩陣,時間成本為$ \mathcal{O}(n^3) $,內存成本為$ \mathcal{O}(n^2) $。這使得樸素 GP 在訓練點超過數千之後就變得不切實際。可擴展的變體通過利用結構或近似來降低成本:
- 稀疏/誘導點方法使用$ m \ll n $個誘導輸入來匯總訓練數據,將成本降至$ \mathcal{O}(n m^2) $。Titsias 提出的變分形式和隨機化變體 SVGP 被廣泛使用。[2][3]
- 結構化核插值(KISS-GP)以及 Toeplitz / Kronecker 技巧利用網格化輸入進一步降低成本。
- 局部方法與專家乘積近似對輸入空間進行劃分,並組合多個局部 GP。
- 隨機傅里葉特徵用有限維的特徵映射近似平穩核,將 GP 轉化為特徵空間中的貝葉斯線性回歸。
- 深度核將一個參數化特徵提取器(通常是一個神經網絡)與基礎核組合,把 GP 的不確定性量化與學到的表示結合起來。
選擇哪種近似方法取決於數據集規模、輸入的幾何結構,以及除了均值之外是否還需要後驗協方差。
與相關模型的比較
使用線性核的GP可以還原為貝葉斯線性回歸;使用固定特徵核$ k(x, x') = \phi(x)^\top \Sigma_p \phi(x') $的 GP 則等價於在特徵空間$ \phi $(即特徵空間)中的貝葉斯線性回歸。反過來,具有一層無限寬隱藏層並對權重設置高斯先驗的貝葉斯神經網絡會收斂到一個 GP,其核由激活函數決定,這一聯繫在深層網絡中通過神經切線核得到了進一步推廣。與支持向量回歸相比,GP 共享核機制,但產出的是完整的後驗而不是單一的回歸函數;與隨機森林和梯度提升相比,GP 通常以較差的可擴展性為代價,提供更好校準的不確定性。
局限性
最主要的實際限制是立方級的擴展性,這使得精確的GP只能用於小規模數據集。各種近似方法雖然可以緩解這一點,但也引入了各自的偏差-方差權衡和調參負擔。GP 對核的選擇非常敏感:被錯誤指定的核可能導致過度自信或校準不良的預測,而標準的平穩核在處理高維輸入時會遇到困難,因為長度尺度變得難以學習,且維度災難會侵蝕光滑性先驗。非高斯似然需要近似推斷,而單調性或非負性等約束並不被原生支持。最後,儘管邊緣似然提供了一種優雅的模型選擇準則,但當噪聲模型被錯誤指定時,它可能偏向過於靈活的核函數。