Mean Squared Error/zh

    From Marovi AI
    This page is a translated version of the page Mean Squared Error and the translation is 100% complete.
    Other languages:
    Article
    Topic area supervised learning
    Prerequisites Loss function, Linear regression, Maximum likelihood estimation


    概述

    均方误差(MSE)是回归任务中使用最广泛的损失函数:预测值与目标值之差的平方的平均值。对于 $ n $ 个样本上的预测 $ \hat{y}_i $ 和目标 $ y_i $$ \mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $。它是凸的、光滑的,并且在线性情形下具有闭式解,这一性质使它自高斯和勒让德以来一直是最小二乘回归的默认目标。在现代机器学习中,MSE 是连续目标的标准损失,是偏差-方差分析中的自然度量,也是当测量噪声为方差恒定的高斯噪声时的极大似然目标。它的主要弱点是对大误差赋予过高权重,从而对离群点和尺度敏感。

    定义

    给定包含 $ n $ 个输入-输出对 $ \{(x_i, y_i)\}_{i=1}^{n} $ 的数据集,以及产生 $ \hat{y}_i = f(x_i) $ 的预测器 $ f $,经验均方误差定义为

    $ {\displaystyle \mathrm{MSE}(f) = \frac{1}{n} \sum_{i=1}^{n} \bigl(y_i - f(x_i)\bigr)^2.} $

    对应的总体量,即在联合分布 $ p(x, y) $ 下的期望平方误差风险,为

    $ {\displaystyle R(f) = \mathbb{E}_{(x, y) \sim p}\!\left[(y - f(x))^2\right].} $

    一项标准练习表明,$ R $ 在所有可测函数上的最小化者是条件均值 $ f^*(x) = \mathbb{E}[y \mid x] $,这就是为什么用 MSE 训练的模型被解释为对条件期望的回归。平方根 $ \sqrt{\mathrm{MSE}} $均方根误差RMSE),其单位与目标相同。

    在从数据估计参数 $ \theta $ 时,统计学中同样的量出现为估计量 $ \hat{\theta} $MSE$ \mathbb{E}[(\hat{\theta} - \theta)^2] $。两种用法——用于预测的损失与用于估计的风险——在概念上不同,但在数学上完全相同。

    统计学解释

    MSE(在常数项之内)是加性高斯噪声模型 $ y = f(x) + \varepsilon $负对数似然,其中 $ \varepsilon \sim \mathcal{N}(0, \sigma^2) $,且 $ \sigma^2 $ 已知且恒定。数据集的对数似然

    $ {\displaystyle \log p(y \mid x; f) = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i))^2 + \text{const},} $

    因此在高斯噪声下对 $ f $极大似然估计正好就是经验 MSE 最小化。只要残差近似高斯且同方差,这一关联就为使用 MSE 提供了合理性;当残差不满足这些条件时——例如重尾误差、乘性噪声或计数数据——平均绝对误差Huber 损失或适当的广义线性模型目标在统计上更合适。

    高斯视角也给出自然的贝叶斯对应:在 $ f $ 的参数上施加高斯先验时,MSE 加上 L2 正则化即为负对数后验,恢复了岭回归正则化系数对应于先验方差与噪声方差之比。

    偏差-方差分解

    估计量 $ \hat{f}(x) $ 在某点 $ x $ 处的期望平方误差可以分解为

    $ {\displaystyle \mathbb{E}\!\left[(y - \hat{f}(x))^2\right] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f^*(x)\bigr)^2}_{\text{bias}^2} + \underbrace{\mathbb{E}\!\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{variance}} + \underbrace{\mathrm{Var}(\varepsilon)}_{\text{irreducible}}.} $

    这一分解仅适用于平方损失——其他损失的类似表达式会出现交叉项,或根本没有干净的分解——这使得MSE成为分析监督学习基本权衡的自然度量。增加模型容量通常会降低偏差并放大方差正则化、集成方法和早停都可以视为降低方差的技术。不可约项给出可达测试误差的下界:即使是贝叶斯最优预测器也要承担 $ \mathrm{Var}(\varepsilon) $

    性质与梯度

    单样本损失 $ \ell(y, \hat{y}) = (y - \hat{y})^2 $ 关于 $ \hat{y} $ 是凸的,无穷次可微,并以二次方式增长。其关于预测值的导数为

    $ {\displaystyle \frac{\partial \ell}{\partial \hat{y}} = -2 (y - \hat{y}),} $

    因此梯度的大小与残差成线性关系。这种残差线性的梯度便于使用梯度下降,意味着拟合良好的样本对参数更新几乎没有贡献,而大残差占主导地位。结合权重初始化和学习率缩放,这一性质解释了为何深度网络中的MSE训练在大多数预测接近目标但少数样本仍然偏离很远时,进展会变得缓慢。

    对于线性模型 $ \hat{y} = w^\top x + b $,MSE 目标是关于 $ (w, b) $ 的半正定二次型,并在 $ X^\top X $ 可逆时具有正规方程闭式解 $ w^* = (X^\top X)^{-1} X^\top y $。高斯-马尔可夫定理保证该估计量在同方差、无相关噪声下是最佳线性无偏估计量——这正是 MSE 成为默认回归准则的历史原因。

    变体

    MSE 的若干修改用于解决其局限性或针对特定任务进行特化:

    • 均方根误差(RMSE)$ \sqrt{\mathrm{MSE}} $。以目标的原始单位报告;适合人类可读的评估,但在模型排序方面与 MSE 等价。
    • 均方对数误差(MSLE)$ \frac{1}{n} \sum (\log(1 + y_i) - \log(1 + \hat{y}_i))^2 $。惩罚相对误差而非绝对误差;适用于跨越多个数量级的目标,例如价格或计数。
    • 加权 MSE$ \frac{1}{n} \sum w_i (y_i - \hat{y}_i)^2 $。允许逐样本重新加权以处理类别不平衡重要性采样异方差修正(取 $ w_i = 1/\sigma_i^2 $ 即得广义最小二乘目标)。
    • 均方百分比误差(MSPE)$ \frac{1}{n} \sum ((y_i - \hat{y}_i)/y_i)^2 $。无尺度依赖,但当 $ y_i \approx 0 $ 时未定义或不稳定。
    • 截断或修剪 MSE — 在求平均之前截断或剔除最大的残差,是少数离群点占主导时的实用鲁棒性修正手段。
    • 均积分平方误差(MISE) — 用于评估密度估计和平滑器的函数空间对应量。

    与其他回归损失的比较

    回归损失的选择主要由噪声分布和所期望的鲁棒性特征决定:

    • 平均绝对误差MAE 使用 $ |y - \hat{y}| $。最优预测器是条件中位数而非均值,梯度大小恒定,使得MAE对离群点更鲁棒,但在零误差附近更难优化。MAE 是拉普拉斯噪声下的极大似然目标。
    • Huber 损失 进行插值:对小残差使用二次形式,对大残差使用线性形式。它在零附近保留了MSE的光滑性,同时为离群点限制梯度大小,是稳健回归的常见默认选择。
    • 分位数损失(pinball 损失)针对指定的分位数而非均值,支撑了分位数回归和概率预测。
    • Log-cosh$ \log(\cosh(y - \hat{y})) $ — 在小残差时近似 MSE,在大残差时近似 MAE,处处完全可微。
    • 交叉熵损失 是分类和密度估计中类似的默认选择;将 MSE 用于分类对数几率通常表现较差,因为对自信但错误的预测梯度会消失。

    当残差近似高斯分布且离群点稀少时,MSE 在统计上是最优的。当噪声呈现重尾、非对称或与尺度相关时,针对性设计的损失函数通常表现更好。

    局限性

    平方项使得MSE存在若干众所周知的失败模式:

    • 对离群点敏感。 单个具有大残差的样本可以主导梯度和参数估计。当存在离群点时,建议采用稳健的替代方案或进行预处理(如缩尾、对数变换)。
    • 尺度依赖。 MSE 数值在不同数据集或任务之间不可直接比较。归一化变体(RMSE 除以目标标准差、R^2)更适合跨任务比较。
    • 指向均值。 MSE 的最优预测器是条件均值。对于偏态条件分布,这可能是较差的点估计;分位数或期望分位数损失给出不同的概括。
    • 在有界目标上具有误导性。 对于概率、百分比或其他有界目标,MSE 不尊重边界,可能产生超出有效范围的预测。
    • 与 sigmoid 输出结合时梯度消失。 将 MSE 与饱和的输出激活函数结合会产生与 $ (y - \hat{y}) \sigma'(z) $ 成比例的梯度,对自信但错误的预测可能极其微小;交叉可避免这一病态。
    • 缺乏概率校准 MSE 训练给出的是点估计而非预测分布。当需要量化不确定性时,需要采用高斯过程回归或深度集成等方法。

    尽管存在这些注意事项,MSE 仍是科学计算、统计学和机器学习中默认的回归损失,原因在于其数学上的可处理性、与高斯似然的关联,以及与组织监督学习大部分理论的偏差-方差分解的兼容性。

    参考文献