Mean Squared Error/zh

    From Marovi AI
    This page is a translated version of the page Mean Squared Error and the translation is 100% complete.
    Other languages:
    Article
    Topic area supervised learning
    Prerequisites Loss function, Linear regression, Maximum likelihood estimation


    概述

    均方誤差(MSE)是回歸任務中使用最廣泛的損失函數:預測值與目標值之差的平方的平均值。對於 $ n $ 個樣本上的預測 $ \hat{y}_i $ 和目標 $ y_i $$ \mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $。它是凸的、光滑的,並且在線性情形下具有閉式解,這一性質使它自高斯和勒讓德以來一直是最小二乘回歸的默認目標。在現代機器學習中,MSE 是連續目標的標準損失,是偏差-方差分析中的自然度量,也是當測量噪聲為方差恆定的高斯噪聲時的極大似然目標。它的主要弱點是對大誤差賦予過高權重,從而對離群點和尺度敏感。

    定義

    給定包含 $ n $ 個輸入-輸出對 $ \{(x_i, y_i)\}_{i=1}^{n} $ 的數據集,以及產生 $ \hat{y}_i = f(x_i) $ 的預測器 $ f $,經驗均方誤差定義為

    $ {\displaystyle \mathrm{MSE}(f) = \frac{1}{n} \sum_{i=1}^{n} \bigl(y_i - f(x_i)\bigr)^2.} $

    對應的總體量,即在聯合分布 $ p(x, y) $ 下的期望平方誤差風險,為

    $ {\displaystyle R(f) = \mathbb{E}_{(x, y) \sim p}\!\left[(y - f(x))^2\right].} $

    一項標準練習表明,$ R $ 在所有可測函數上的最小化者是條件均值 $ f^*(x) = \mathbb{E}[y \mid x] $,這就是為什麼用 MSE 訓練的模型被解釋為對條件期望的回歸。平方根 $ \sqrt{\mathrm{MSE}} $均方根誤差RMSE),其單位與目標相同。

    在從數據估計參數 $ \theta $ 時,統計學中同樣的量出現為估計量 $ \hat{\theta} $MSE$ \mathbb{E}[(\hat{\theta} - \theta)^2] $。兩種用法——用於預測的損失與用於估計的風險——在概念上不同,但在數學上完全相同。

    統計學解釋

    MSE(在常數項之內)是加性高斯噪聲模型 $ y = f(x) + \varepsilon $負對數似然,其中 $ \varepsilon \sim \mathcal{N}(0, \sigma^2) $,且 $ \sigma^2 $ 已知且恆定。數據集的對數似然

    $ {\displaystyle \log p(y \mid x; f) = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i))^2 + \text{const},} $

    因此在高斯噪聲下對 $ f $極大似然估計正好就是經驗 MSE 最小化。只要殘差近似高斯且同方差,這一關聯就為使用 MSE 提供了合理性;當殘差不滿足這些條件時——例如重尾誤差、乘性噪聲或計數數據——平均絕對誤差Huber 損失或適當的廣義線性模型目標在統計上更合適。

    高斯視角也給出自然的貝葉斯對應:在 $ f $ 的參數上施加高斯先驗時,MSE 加上 L2 正則化即為負對數後驗,恢復了嶺回歸正則化係數對應於先驗方差與噪聲方差之比。

    偏差-方差分解

    估計量 $ \hat{f}(x) $ 在某點 $ x $ 處的期望平方誤差可以分解為

    $ {\displaystyle \mathbb{E}\!\left[(y - \hat{f}(x))^2\right] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f^*(x)\bigr)^2}_{\text{bias}^2} + \underbrace{\mathbb{E}\!\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{variance}} + \underbrace{\mathrm{Var}(\varepsilon)}_{\text{irreducible}}.} $

    這一分解僅適用於平方損失——其他損失的類似表達式會出現交叉項,或根本沒有乾淨的分解——這使得MSE成為分析監督學習基本權衡的自然度量。增加模型容量通常會降低偏差並放大方差正則化、集成方法和早停都可以視為降低方差的技術。不可約項給出可達測試誤差的下界:即使是貝葉斯最優預測器也要承擔 $ \mathrm{Var}(\varepsilon) $

    性質與梯度

    單樣本損失 $ \ell(y, \hat{y}) = (y - \hat{y})^2 $ 關於 $ \hat{y} $ 是凸的,無窮次可微,並以二次方式增長。其關於預測值的導數為

    $ {\displaystyle \frac{\partial \ell}{\partial \hat{y}} = -2 (y - \hat{y}),} $

    因此梯度的大小與殘差成線性關係。這種殘差線性的梯度便於使用梯度下降,意味着擬合良好的樣本對參數更新幾乎沒有貢獻,而大殘差占主導地位。結合權重初始化和學習率縮放,這一性質解釋了為何深度網絡中的MSE訓練在大多數預測接近目標但少數樣本仍然偏離很遠時,進展會變得緩慢。

    對於線性模型 $ \hat{y} = w^\top x + b $,MSE 目標是關於 $ (w, b) $ 的半正定二次型,並在 $ X^\top X $ 可逆時具有正規方程閉式解 $ w^* = (X^\top X)^{-1} X^\top y $。高斯-馬爾可夫定理保證該估計量在同方差、無相關噪聲下是最佳線性無偏估計量——這正是 MSE 成為默認回歸準則的歷史原因。

    變體

    MSE 的若干修改用於解決其局限性或針對特定任務進行特化:

    • 均方根誤差(RMSE)$ \sqrt{\mathrm{MSE}} $。以目標的原始單位報告;適合人類可讀的評估,但在模型排序方面與 MSE 等價。
    • 均方對數誤差(MSLE)$ \frac{1}{n} \sum (\log(1 + y_i) - \log(1 + \hat{y}_i))^2 $。懲罰相對誤差而非絕對誤差;適用於跨越多個數量級的目標,例如價格或計數。
    • 加權 MSE$ \frac{1}{n} \sum w_i (y_i - \hat{y}_i)^2 $。允許逐樣本重新加權以處理類別不平衡重要性採樣異方差修正(取 $ w_i = 1/\sigma_i^2 $ 即得廣義最小二乘目標)。
    • 均方百分比誤差(MSPE)$ \frac{1}{n} \sum ((y_i - \hat{y}_i)/y_i)^2 $。無尺度依賴,但當 $ y_i \approx 0 $ 時未定義或不穩定。
    • 截斷或修剪 MSE — 在求平均之前截斷或剔除最大的殘差,是少數離群點占主導時的實用魯棒性修正手段。
    • 均積分平方誤差(MISE) — 用於評估密度估計和平滑器的函數空間對應量。

    與其他回歸損失的比較

    回歸損失的選擇主要由噪聲分布和所期望的魯棒性特徵決定:

    • 平均絕對誤差MAE 使用 $ |y - \hat{y}| $。最優預測器是條件中位數而非均值,梯度大小恆定,使得MAE對離群點更魯棒,但在零誤差附近更難優化。MAE 是拉普拉斯噪聲下的極大似然目標。
    • Huber 損失 進行插值:對小殘差使用二次形式,對大殘差使用線性形式。它在零附近保留了MSE的光滑性,同時為離群點限制梯度大小,是穩健回歸的常見默認選擇。
    • 分位數損失(pinball 損失)針對指定的分位數而非均值,支撐了分位數回歸和概率預測。
    • Log-cosh$ \log(\cosh(y - \hat{y})) $ — 在小殘差時近似 MSE,在大殘差時近似 MAE,處處完全可微。
    • 交叉熵損失 是分類和密度估計中類似的默認選擇;將 MSE 用於分類對數幾率通常表現較差,因為對自信但錯誤的預測梯度會消失。

    當殘差近似高斯分布且離群點稀少時,MSE 在統計上是最優的。當噪聲呈現重尾、非對稱或與尺度相關時,針對性設計的損失函數通常表現更好。

    局限性

    平方項使得MSE存在若干眾所周知的失敗模式:

    • 對離群點敏感。 單個具有大殘差的樣本可以主導梯度和參數估計。當存在離群點時,建議採用穩健的替代方案或進行預處理(如縮尾、對數變換)。
    • 尺度依賴。 MSE 數值在不同數據集或任務之間不可直接比較。歸一化變體(RMSE 除以目標標準差、R^2)更適合跨任務比較。
    • 指向均值。 MSE 的最優預測器是條件均值。對於偏態條件分布,這可能是較差的點估計;分位數或期望分位數損失給出不同的概括。
    • 在有界目標上具有誤導性。 對於概率、百分比或其他有界目標,MSE 不尊重邊界,可能產生超出有效範圍的預測。
    • 與 sigmoid 輸出結合時梯度消失。 將 MSE 與飽和的輸出激活函數結合會產生與 $ (y - \hat{y}) \sigma'(z) $ 成比例的梯度,對自信但錯誤的預測可能極其微小;交叉可避免這一病態。
    • 缺乏概率校準 MSE 訓練給出的是點估計而非預測分布。當需要量化不確定性時,需要採用高斯過程回歸或深度集成等方法。

    儘管存在這些注意事項,MSE 仍是科學計算、統計學和機器學習中默認的回歸損失,原因在於其數學上的可處理性、與高斯似然的關聯,以及與組織監督學習大部分理論的偏差-方差分解的兼容性。

    參考文獻