Mean Squared Error/zh

Article
Topic area	supervised learning
Prerequisites	Loss function, Linear regression, Maximum likelihood estimation

This page is a translated version of the page Mean Squared Error and the translation is 100% complete.

Other languages:

English
Español
中文

概述

均方誤差（MSE）是回歸任務中使用最廣泛的損失函數：預測值與目標值之差的平方的平均值。對於 $$ n $$ 個樣本上的預測 $\hat{y}_i$ 和目標 $$ y_i $$ ， $\mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ 。它是凸的、光滑的，並且在線性情形下具有閉式解，這一性質使它自高斯和勒讓德以來一直是最小二乘回歸的默認目標。在現代機器學習中，MSE 是連續目標的標準損失，是偏差-方差分析中的自然度量，也是當測量噪聲為方差恆定的高斯噪聲時的極大似然目標。它的主要弱點是對大誤差賦予過高權重，從而對離群點和尺度敏感。

定義

給定包含 $$ n $$ 個輸入-輸出對 $\{(x_i, y_i)\}_{i=1}^{n}$ 的數據集，以及產生 $\hat{y}_i = f(x_i)$ 的預測器 $$ f $$ ，經驗均方誤差定義為

$\mathrm{MSE}(f) = \frac{1}{n} \sum_{i=1}^{n} \bigl(y_i - f(x_i)\bigr)^2.$

對應的總體量，即在聯合分布 $$ p(x, y) $$ 下的期望平方誤差或風險，為

$R(f) = \mathbb{E}_{(x, y) \sim p}\!\left[(y - f(x))^2\right].$

一項標準練習表明， $$ R $$ 在所有可測函數上的最小化者是條件均值 $f^*(x) = \mathbb{E}[y \mid x]$ ，這就是為什麼用 MSE 訓練的模型被解釋為對條件期望的回歸。平方根 $\sqrt{\mathrm{MSE}}$ 即均方根誤差（RMSE），其單位與目標相同。

在從數據估計參數 $\theta$ 時，統計學中同樣的量出現為估計量 $\hat{\theta}$ 的MSE： $\mathbb{E}[(\hat{\theta} - \theta)^2]$ 。兩種用法——用於預測的損失與用於估計的風險——在概念上不同，但在數學上完全相同。

統計學解釋

MSE（在常數項之內）是加性高斯噪聲模型 $y = f(x) + \varepsilon$ 的負對數似然，其中 $\varepsilon \sim \mathcal{N}(0, \sigma^2)$ ，且 $\sigma^2$ 已知且恆定。數據集的對數似然為

$\log p(y \mid x; f) = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i))^2 + \text{const},$

因此在高斯噪聲下對 $$ f $$ 的極大似然估計正好就是經驗 MSE 最小化。只要殘差近似高斯且同方差，這一關聯就為使用 MSE 提供了合理性；當殘差不滿足這些條件時——例如重尾誤差、乘性噪聲或計數數據——平均絕對誤差、Huber 損失或適當的廣義線性模型目標在統計上更合適。

高斯視角也給出自然的貝葉斯對應：在 $$ f $$ 的參數上施加高斯先驗時，MSE 加上 L2 正則化即為負對數後驗，恢復了嶺回歸。正則化係數對應於先驗方差與噪聲方差之比。

偏差-方差分解

估計量 $\hat{f}(x)$ 在某點 $$ x $$ 處的期望平方誤差可以分解為

$\mathbb{E}\!\left[(y - \hat{f}(x))^2\right] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f^*(x)\bigr)^2}_{\text{bias}^2} + \underbrace{\mathbb{E}\!\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{variance}} + \underbrace{\mathrm{Var}(\varepsilon)}_{\text{irreducible}}.$

這一分解僅適用於平方損失——其他損失的類似表達式會出現交叉項，或根本沒有乾淨的分解——這使得MSE成為分析監督學習基本權衡的自然度量。增加模型容量通常會降低偏差並放大方差；正則化、集成方法和早停都可以視為降低方差的技術。不可約項給出可達測試誤差的下界：即使是貝葉斯最優預測器也要承擔 $\mathrm{Var}(\varepsilon)$ 。

性質與梯度

單樣本損失 $\ell(y, \hat{y}) = (y - \hat{y})^2$ 關於 $\hat{y}$ 是凸的，無窮次可微，並以二次方式增長。其關於預測值的導數為

$\frac{\partial \ell}{\partial \hat{y}} = -2 (y - \hat{y}),$

因此梯度的大小與殘差成線性關係。這種殘差線性的梯度便於使用梯度下降，意味着擬合良好的樣本對參數更新幾乎沒有貢獻，而大殘差占主導地位。結合權重初始化和學習率縮放，這一性質解釋了為何深度網絡中的MSE訓練在大多數預測接近目標但少數樣本仍然偏離很遠時，進展會變得緩慢。

對於線性模型 $\hat{y} = w^\top x + b$ ，MSE 目標是關於 $$ (w, b) $$ 的半正定二次型，並在 $X^\top X$ 可逆時具有正規方程閉式解 $w^* = (X^\top X)^{-1} X^\top y$ 。高斯-馬爾可夫定理保證該估計量在同方差、無相關噪聲下是最佳線性無偏估計量——這正是 MSE 成為默認回歸準則的歷史原因。

變體

MSE 的若干修改用於解決其局限性或針對特定任務進行特化：

均方根誤差（RMSE） — $\sqrt{\mathrm{MSE}}$ 。以目標的原始單位報告；適合人類可讀的評估，但在模型排序方面與 MSE 等價。
均方對數誤差（MSLE） — $\frac{1}{n} \sum (\log(1 + y_i) - \log(1 + \hat{y}_i))^2$ 。懲罰相對誤差而非絕對誤差；適用於跨越多個數量級的目標，例如價格或計數。
加權 MSE — $\frac{1}{n} \sum w_i (y_i - \hat{y}_i)^2$ 。允許逐樣本重新加權以處理類別不平衡、重要性採樣或異方差修正（取 $w_i = 1/\sigma_i^2$ 即得廣義最小二乘目標）。
均方百分比誤差（MSPE） — $\frac{1}{n} \sum ((y_i - \hat{y}_i)/y_i)^2$ 。無尺度依賴，但當 $y_i \approx 0$ 時未定義或不穩定。
截斷或修剪 MSE — 在求平均之前截斷或剔除最大的殘差，是少數離群點占主導時的實用魯棒性修正手段。
均積分平方誤差（MISE） — 用於評估密度估計和核平滑器的函數空間對應量。

與其他回歸損失的比較

回歸損失的選擇主要由噪聲分布和所期望的魯棒性特徵決定：

平均絕對誤差（MAE） 使用 $|y - \hat{y}|$ 。最優預測器是條件中位數而非均值，梯度大小恆定，使得MAE對離群點更魯棒，但在零誤差附近更難優化。MAE 是拉普拉斯噪聲下的極大似然目標。
Huber 損失 進行插值：對小殘差使用二次形式，對大殘差使用線性形式。它在零附近保留了MSE的光滑性，同時為離群點限制梯度大小，是穩健回歸的常見默認選擇。
分位數損失（pinball 損失）針對指定的分位數而非均值，支撐了分位數回歸和概率預測。
Log-cosh — $\log(\cosh(y - \hat{y}))$ — 在小殘差時近似 MSE，在大殘差時近似 MAE，處處完全可微。
交叉熵損失 是分類和密度估計中類似的默認選擇；將 MSE 用於分類對數幾率通常表現較差，因為對自信但錯誤的預測梯度會消失。

當殘差近似高斯分布且離群點稀少時，MSE 在統計上是最優的。當噪聲呈現重尾、非對稱或與尺度相關時，針對性設計的損失函數通常表現更好。

局限性

平方項使得MSE存在若干眾所周知的失敗模式：

對離群點敏感。 單個具有大殘差的樣本可以主導梯度和參數估計。當存在離群點時，建議採用穩健的替代方案或進行預處理（如縮尾、對數變換）。
尺度依賴。 MSE 數值在不同數據集或任務之間不可直接比較。歸一化變體（RMSE 除以目標標準差、R^2）更適合跨任務比較。
指向均值。 MSE 的最優預測器是條件均值。對於偏態條件分布，這可能是較差的點估計；分位數或期望分位數損失給出不同的概括。
在有界目標上具有誤導性。 對於概率、百分比或其他有界目標，MSE 不尊重邊界，可能產生超出有效範圍的預測。
與 sigmoid 輸出結合時梯度消失。 將 MSE 與飽和的輸出激活函數結合會產生與 $(y - \hat{y}) \sigma'(z)$ 成比例的梯度，對自信但錯誤的預測可能極其微小；交叉熵可避免這一病態。
缺乏概率校準。 MSE 訓練給出的是點估計而非預測分布。當需要量化不確定性時，需要採用高斯過程回歸或深度集成等方法。

儘管存在這些注意事項，MSE 仍是科學計算、統計學和機器學習中默認的回歸損失，原因在於其數學上的可處理性、與高斯似然的關聯，以及與組織監督學習大部分理論的偏差-方差分解的兼容性。

概述

定義

統計學解釋

偏差-方差分解

性質與梯度

變體

與其他回歸損失的比較

局限性

參考文獻