Mean Squared Error/zh
| Article | |
|---|---|
| Topic area | supervised learning |
| Prerequisites | Loss function, Linear regression, Maximum likelihood estimation |
概述
均方误差(MSE)是回归任务中使用最广泛的损失函数:预测值与目标值之差的平方的平均值。对于 $ n $ 个样本上的预测 $ \hat{y}_i $ 和目标 $ y_i $,$ \mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $。它是凸的、光滑的,并且在线性情形下具有闭式解,这一性质使它自高斯和勒让德以来一直是最小二乘回归的默认目标。在现代机器学习中,MSE 是连续目标的标准损失,是偏差-方差分析中的自然度量,也是当测量噪声为方差恒定的高斯噪声时的极大似然目标。它的主要弱点是对大误差赋予过高权重,从而对离群点和尺度敏感。
定义
给定包含 $ n $ 个输入-输出对 $ \{(x_i, y_i)\}_{i=1}^{n} $ 的数据集,以及产生 $ \hat{y}_i = f(x_i) $ 的预测器 $ f $,经验均方误差定义为
$ {\displaystyle \mathrm{MSE}(f) = \frac{1}{n} \sum_{i=1}^{n} \bigl(y_i - f(x_i)\bigr)^2.} $
对应的总体量,即在联合分布 $ p(x, y) $ 下的期望平方误差或风险,为
$ {\displaystyle R(f) = \mathbb{E}_{(x, y) \sim p}\!\left[(y - f(x))^2\right].} $
一项标准练习表明,$ R $ 在所有可测函数上的最小化者是条件均值 $ f^*(x) = \mathbb{E}[y \mid x] $,这就是为什么用 MSE 训练的模型被解释为对条件期望的回归。平方根 $ \sqrt{\mathrm{MSE}} $ 即均方根误差(RMSE),其单位与目标相同。
在从数据估计参数 $ \theta $ 时,统计学中同样的量出现为估计量 $ \hat{\theta} $ 的MSE:$ \mathbb{E}[(\hat{\theta} - \theta)^2] $。两种用法——用于预测的损失与用于估计的风险——在概念上不同,但在数学上完全相同。
统计学解释
MSE(在常数项之内)是加性高斯噪声模型 $ y = f(x) + \varepsilon $ 的负对数似然,其中 $ \varepsilon \sim \mathcal{N}(0, \sigma^2) $,且 $ \sigma^2 $ 已知且恒定。数据集的对数似然为
$ {\displaystyle \log p(y \mid x; f) = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i))^2 + \text{const},} $
因此在高斯噪声下对 $ f $ 的极大似然估计正好就是经验 MSE 最小化。只要残差近似高斯且同方差,这一关联就为使用 MSE 提供了合理性;当残差不满足这些条件时——例如重尾误差、乘性噪声或计数数据——平均绝对误差、Huber 损失或适当的广义线性模型目标在统计上更合适。
高斯视角也给出自然的贝叶斯对应:在 $ f $ 的参数上施加高斯先验时,MSE 加上 L2 正则化即为负对数后验,恢复了岭回归。正则化系数对应于先验方差与噪声方差之比。
偏差-方差分解
估计量 $ \hat{f}(x) $ 在某点 $ x $ 处的期望平方误差可以分解为
$ {\displaystyle \mathbb{E}\!\left[(y - \hat{f}(x))^2\right] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f^*(x)\bigr)^2}_{\text{bias}^2} + \underbrace{\mathbb{E}\!\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{variance}} + \underbrace{\mathrm{Var}(\varepsilon)}_{\text{irreducible}}.} $
这一分解仅适用于平方损失——其他损失的类似表达式会出现交叉项,或根本没有干净的分解——这使得MSE成为分析监督学习基本权衡的自然度量。增加模型容量通常会降低偏差并放大方差;正则化、集成方法和早停都可以视为降低方差的技术。不可约项给出可达测试误差的下界:即使是贝叶斯最优预测器也要承担 $ \mathrm{Var}(\varepsilon) $。
性质与梯度
单样本损失 $ \ell(y, \hat{y}) = (y - \hat{y})^2 $ 关于 $ \hat{y} $ 是凸的,无穷次可微,并以二次方式增长。其关于预测值的导数为
$ {\displaystyle \frac{\partial \ell}{\partial \hat{y}} = -2 (y - \hat{y}),} $
因此梯度的大小与残差成线性关系。这种残差线性的梯度便于使用梯度下降,意味着拟合良好的样本对参数更新几乎没有贡献,而大残差占主导地位。结合权重初始化和学习率缩放,这一性质解释了为何深度网络中的MSE训练在大多数预测接近目标但少数样本仍然偏离很远时,进展会变得缓慢。
对于线性模型 $ \hat{y} = w^\top x + b $,MSE 目标是关于 $ (w, b) $ 的半正定二次型,并在 $ X^\top X $ 可逆时具有正规方程闭式解 $ w^* = (X^\top X)^{-1} X^\top y $。高斯-马尔可夫定理保证该估计量在同方差、无相关噪声下是最佳线性无偏估计量——这正是 MSE 成为默认回归准则的历史原因。
变体
MSE 的若干修改用于解决其局限性或针对特定任务进行特化:
- 均方根误差(RMSE) — $ \sqrt{\mathrm{MSE}} $。以目标的原始单位报告;适合人类可读的评估,但在模型排序方面与 MSE 等价。
- 均方对数误差(MSLE) — $ \frac{1}{n} \sum (\log(1 + y_i) - \log(1 + \hat{y}_i))^2 $。惩罚相对误差而非绝对误差;适用于跨越多个数量级的目标,例如价格或计数。
- 加权 MSE — $ \frac{1}{n} \sum w_i (y_i - \hat{y}_i)^2 $。允许逐样本重新加权以处理类别不平衡、重要性采样或异方差修正(取 $ w_i = 1/\sigma_i^2 $ 即得广义最小二乘目标)。
- 均方百分比误差(MSPE) — $ \frac{1}{n} \sum ((y_i - \hat{y}_i)/y_i)^2 $。无尺度依赖,但当 $ y_i \approx 0 $ 时未定义或不稳定。
- 截断或修剪 MSE — 在求平均之前截断或剔除最大的残差,是少数离群点占主导时的实用鲁棒性修正手段。
- 均积分平方误差(MISE) — 用于评估密度估计和核平滑器的函数空间对应量。
与其他回归损失的比较
回归损失的选择主要由噪声分布和所期望的鲁棒性特征决定:
- 平均绝对误差(MAE) 使用 $ |y - \hat{y}| $。最优预测器是条件中位数而非均值,梯度大小恒定,使得MAE对离群点更鲁棒,但在零误差附近更难优化。MAE 是拉普拉斯噪声下的极大似然目标。
- Huber 损失 进行插值:对小残差使用二次形式,对大残差使用线性形式。它在零附近保留了MSE的光滑性,同时为离群点限制梯度大小,是稳健回归的常见默认选择。
- 分位数损失(pinball 损失)针对指定的分位数而非均值,支撑了分位数回归和概率预测。
- Log-cosh — $ \log(\cosh(y - \hat{y})) $ — 在小残差时近似 MSE,在大残差时近似 MAE,处处完全可微。
- 交叉熵损失 是分类和密度估计中类似的默认选择;将 MSE 用于分类对数几率通常表现较差,因为对自信但错误的预测梯度会消失。
当残差近似高斯分布且离群点稀少时,MSE 在统计上是最优的。当噪声呈现重尾、非对称或与尺度相关时,针对性设计的损失函数通常表现更好。
局限性
平方项使得MSE存在若干众所周知的失败模式:
- 对离群点敏感。 单个具有大残差的样本可以主导梯度和参数估计。当存在离群点时,建议采用稳健的替代方案或进行预处理(如缩尾、对数变换)。
- 尺度依赖。 MSE 数值在不同数据集或任务之间不可直接比较。归一化变体(RMSE 除以目标标准差、R^2)更适合跨任务比较。
- 指向均值。 MSE 的最优预测器是条件均值。对于偏态条件分布,这可能是较差的点估计;分位数或期望分位数损失给出不同的概括。
- 在有界目标上具有误导性。 对于概率、百分比或其他有界目标,MSE 不尊重边界,可能产生超出有效范围的预测。
- 与 sigmoid 输出结合时梯度消失。 将 MSE 与饱和的输出激活函数结合会产生与 $ (y - \hat{y}) \sigma'(z) $ 成比例的梯度,对自信但错误的预测可能极其微小;交叉熵可避免这一病态。
- 缺乏概率校准。 MSE 训练给出的是点估计而非预测分布。当需要量化不确定性时,需要采用高斯过程回归或深度集成等方法。
尽管存在这些注意事项,MSE 仍是科学计算、统计学和机器学习中默认的回归损失,原因在于其数学上的可处理性、与高斯似然的关联,以及与组织监督学习大部分理论的偏差-方差分解的兼容性。