Mean Squared Error/zh

Article
Topic area	supervised learning
Prerequisites	Loss function, Linear regression, Maximum likelihood estimation

This page is a translated version of the page Mean Squared Error and the translation is 100% complete.

Other languages:

English
Español
中文

概述

均方误差（MSE）是回归任务中使用最广泛的损失函数：预测值与目标值之差的平方的平均值。对于 $$ n $$ 个样本上的预测 $\hat{y}_i$ 和目标 $$ y_i $$ ， $\mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ 。它是凸的、光滑的，并且在线性情形下具有闭式解，这一性质使它自高斯和勒让德以来一直是最小二乘回归的默认目标。在现代机器学习中，MSE 是连续目标的标准损失，是偏差-方差分析中的自然度量，也是当测量噪声为方差恒定的高斯噪声时的极大似然目标。它的主要弱点是对大误差赋予过高权重，从而对离群点和尺度敏感。

定义

给定包含 $$ n $$ 个输入-输出对 $\{(x_i, y_i)\}_{i=1}^{n}$ 的数据集，以及产生 $\hat{y}_i = f(x_i)$ 的预测器 $$ f $$ ，经验均方误差定义为

$\mathrm{MSE}(f) = \frac{1}{n} \sum_{i=1}^{n} \bigl(y_i - f(x_i)\bigr)^2.$

对应的总体量，即在联合分布 $$ p(x, y) $$ 下的期望平方误差或风险，为

$R(f) = \mathbb{E}_{(x, y) \sim p}\!\left[(y - f(x))^2\right].$

一项标准练习表明， $$ R $$ 在所有可测函数上的最小化者是条件均值 $f^*(x) = \mathbb{E}[y \mid x]$ ，这就是为什么用 MSE 训练的模型被解释为对条件期望的回归。平方根 $\sqrt{\mathrm{MSE}}$ 即均方根误差（RMSE），其单位与目标相同。

在从数据估计参数 $\theta$ 时，统计学中同样的量出现为估计量 $\hat{\theta}$ 的MSE： $\mathbb{E}[(\hat{\theta} - \theta)^2]$ 。两种用法——用于预测的损失与用于估计的风险——在概念上不同，但在数学上完全相同。

统计学解释

MSE（在常数项之内）是加性高斯噪声模型 $y = f(x) + \varepsilon$ 的负对数似然，其中 $\varepsilon \sim \mathcal{N}(0, \sigma^2)$ ，且 $\sigma^2$ 已知且恒定。数据集的对数似然为

$\log p(y \mid x; f) = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i))^2 + \text{const},$

因此在高斯噪声下对 $$ f $$ 的极大似然估计正好就是经验 MSE 最小化。只要残差近似高斯且同方差，这一关联就为使用 MSE 提供了合理性；当残差不满足这些条件时——例如重尾误差、乘性噪声或计数数据——平均绝对误差、Huber 损失或适当的广义线性模型目标在统计上更合适。

高斯视角也给出自然的贝叶斯对应：在 $$ f $$ 的参数上施加高斯先验时，MSE 加上 L2 正则化即为负对数后验，恢复了岭回归。正则化系数对应于先验方差与噪声方差之比。

偏差-方差分解

估计量 $\hat{f}(x)$ 在某点 $$ x $$ 处的期望平方误差可以分解为

$\mathbb{E}\!\left[(y - \hat{f}(x))^2\right] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f^*(x)\bigr)^2}_{\text{bias}^2} + \underbrace{\mathbb{E}\!\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{variance}} + \underbrace{\mathrm{Var}(\varepsilon)}_{\text{irreducible}}.$

这一分解仅适用于平方损失——其他损失的类似表达式会出现交叉项，或根本没有干净的分解——这使得MSE成为分析监督学习基本权衡的自然度量。增加模型容量通常会降低偏差并放大方差；正则化、集成方法和早停都可以视为降低方差的技术。不可约项给出可达测试误差的下界：即使是贝叶斯最优预测器也要承担 $\mathrm{Var}(\varepsilon)$ 。

性质与梯度

单样本损失 $\ell(y, \hat{y}) = (y - \hat{y})^2$ 关于 $\hat{y}$ 是凸的，无穷次可微，并以二次方式增长。其关于预测值的导数为

$\frac{\partial \ell}{\partial \hat{y}} = -2 (y - \hat{y}),$

因此梯度的大小与残差成线性关系。这种残差线性的梯度便于使用梯度下降，意味着拟合良好的样本对参数更新几乎没有贡献，而大残差占主导地位。结合权重初始化和学习率缩放，这一性质解释了为何深度网络中的MSE训练在大多数预测接近目标但少数样本仍然偏离很远时，进展会变得缓慢。

对于线性模型 $\hat{y} = w^\top x + b$ ，MSE 目标是关于 $$ (w, b) $$ 的半正定二次型，并在 $X^\top X$ 可逆时具有正规方程闭式解 $w^* = (X^\top X)^{-1} X^\top y$ 。高斯-马尔可夫定理保证该估计量在同方差、无相关噪声下是最佳线性无偏估计量——这正是 MSE 成为默认回归准则的历史原因。

变体

MSE 的若干修改用于解决其局限性或针对特定任务进行特化：

均方根误差（RMSE） — $\sqrt{\mathrm{MSE}}$ 。以目标的原始单位报告；适合人类可读的评估，但在模型排序方面与 MSE 等价。
均方对数误差（MSLE） — $\frac{1}{n} \sum (\log(1 + y_i) - \log(1 + \hat{y}_i))^2$ 。惩罚相对误差而非绝对误差；适用于跨越多个数量级的目标，例如价格或计数。
加权 MSE — $\frac{1}{n} \sum w_i (y_i - \hat{y}_i)^2$ 。允许逐样本重新加权以处理类别不平衡、重要性采样或异方差修正（取 $w_i = 1/\sigma_i^2$ 即得广义最小二乘目标）。
均方百分比误差（MSPE） — $\frac{1}{n} \sum ((y_i - \hat{y}_i)/y_i)^2$ 。无尺度依赖，但当 $y_i \approx 0$ 时未定义或不稳定。
截断或修剪 MSE — 在求平均之前截断或剔除最大的残差，是少数离群点占主导时的实用鲁棒性修正手段。
均积分平方误差（MISE） — 用于评估密度估计和核平滑器的函数空间对应量。

与其他回归损失的比较

回归损失的选择主要由噪声分布和所期望的鲁棒性特征决定：

平均绝对误差（MAE） 使用 $|y - \hat{y}|$ 。最优预测器是条件中位数而非均值，梯度大小恒定，使得MAE对离群点更鲁棒，但在零误差附近更难优化。MAE 是拉普拉斯噪声下的极大似然目标。
Huber 损失 进行插值：对小残差使用二次形式，对大残差使用线性形式。它在零附近保留了MSE的光滑性，同时为离群点限制梯度大小，是稳健回归的常见默认选择。
分位数损失（pinball 损失）针对指定的分位数而非均值，支撑了分位数回归和概率预测。
Log-cosh — $\log(\cosh(y - \hat{y}))$ — 在小残差时近似 MSE，在大残差时近似 MAE，处处完全可微。
交叉熵损失 是分类和密度估计中类似的默认选择；将 MSE 用于分类对数几率通常表现较差，因为对自信但错误的预测梯度会消失。

当残差近似高斯分布且离群点稀少时，MSE 在统计上是最优的。当噪声呈现重尾、非对称或与尺度相关时，针对性设计的损失函数通常表现更好。

局限性

平方项使得MSE存在若干众所周知的失败模式：

对离群点敏感。 单个具有大残差的样本可以主导梯度和参数估计。当存在离群点时，建议采用稳健的替代方案或进行预处理（如缩尾、对数变换）。
尺度依赖。 MSE 数值在不同数据集或任务之间不可直接比较。归一化变体（RMSE 除以目标标准差、R^2）更适合跨任务比较。
指向均值。 MSE 的最优预测器是条件均值。对于偏态条件分布，这可能是较差的点估计；分位数或期望分位数损失给出不同的概括。
在有界目标上具有误导性。 对于概率、百分比或其他有界目标，MSE 不尊重边界，可能产生超出有效范围的预测。
与 sigmoid 输出结合时梯度消失。 将 MSE 与饱和的输出激活函数结合会产生与 $(y - \hat{y}) \sigma'(z)$ 成比例的梯度，对自信但错误的预测可能极其微小；交叉熵可避免这一病态。
缺乏概率校准。 MSE 训练给出的是点估计而非预测分布。当需要量化不确定性时，需要采用高斯过程回归或深度集成等方法。

尽管存在这些注意事项，MSE 仍是科学计算、统计学和机器学习中默认的回归损失，原因在于其数学上的可处理性、与高斯似然的关联，以及与组织监督学习大部分理论的偏差-方差分解的兼容性。

概述

定义

统计学解释

偏差-方差分解

性质与梯度

变体

与其他回归损失的比较

局限性

参考文献