Linear Regression/zh

Article
Topic area	Statistics

Other languages:

English
Español
中文

线性回归是一种基本的统计方法,通过将线性方程拟合到观测数据上来建模因变量与一个或多个自变量之间的关系。它是统计学和机器学习中最古老且最广泛使用的技术之一,既是一种实用的预测工具,也是理解更复杂模型的基础构件。

问题设置

给定一个包含 $$ N $$ 个观测的数据集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^{N}$ ，其中 $\mathbf{x}_i \in \mathbb{R}^d$ 是特征向量， $y_i \in \mathbb{R}$ 是目标，线性回归假设以下关系：

y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + b + \epsilon_i

其中 $\mathbf{w} \in \mathbb{R}^d$ 是权重向量， $$ b $$ 是偏置（截距）， $\epsilon_i$ 是误差项。通过将偏置吸收进权重向量中（在每个 $\mathbf{x}_i$ 后追加一个 1），此式简化为 $y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + \epsilon_i$ 。

普通最小二乘法

普通最小二乘法(OLS)寻找使残差平方和最小的权重:

\mathcal{L}(\mathbf{w}) = \sum_{i=1}^{N} (y_i - \mathbf{w}^{\!\top} \mathbf{x}_i)^2 = \|\mathbf{y} - X\mathbf{w}\|^2

其中 $X \in \mathbb{R}^{N \times d}$ 是设计矩阵， $\mathbf{y} \in \mathbb{R}^N$ 是目标向量。

闭式解

将梯度置为零得到正规方程：

\nabla_{\mathbf{w}} \mathcal{L} = -2 X^{\!\top}(\mathbf{y} - X\mathbf{w}) = 0

\hat{\mathbf{w}} = (X^{\!\top} X)^{-1} X^{\!\top} \mathbf{y}

当 $X^{\!\top} X$ 可逆(即特征线性独立)时,该解存在且唯一。计算成本为 $$ O(Nd^2 + d^3) $$ ,对于中等规模的 $$ d $$ 是高效的,但在高维问题中会变得非常昂贵。

梯度下降方法

当闭式解不实用时( $$ d $$ 或 $$ N $$ 很大),则使用通过梯度下降进行的迭代优化。梯度为:

\nabla_{\mathbf{w}} \mathcal{L} = -\frac{2}{N} X^{\!\top}(\mathbf{y} - X\mathbf{w})

更新规则为 $\mathbf{w} \leftarrow \mathbf{w} - \eta \nabla_{\mathbf{w}} \mathcal{L}$ ，其中 $\eta$ 是学习率。随机和小批量变体可扩展到数百万数据点。

OLS 的假设

在高斯-马尔可夫条件下,经典的 OLS 估计量是 BLUE(最佳线性无偏估计量):

线性：特征与目标之间的真实关系是线性的。
独立性：各观测之间相互独立。
同方差性：误差方差 $\mathrm{Var}(\epsilon_i) = \sigma^2$ 在所有观测上保持恒定。
无完全多重共线性：任何特征都不是其他特征的精确线性组合。
外生性： $E[\epsilon_i \mid \mathbf{x}_i] = 0$ — 误差与特征不相关。

违反这些假设并不一定会使线性回归失去效用，但可能使从模型中得出的置信区间和假设检验失效。

评估指标

指标	公式	含义
MSE	$\frac{1}{N}\sum(y_i - \hat{y}_i)^2$	平均平方误差；对较大误差惩罚更重
RMSE	$\sqrt{\mathrm{MSE}}$	与目标同单位
MAE	$\frac{1}{N}\sum\|y_i - \hat{y}_i\|$	平均绝对误差；对离群值稳健
R 平方	$1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$	解释方差的比例（0 到 1）

$$ R^2 $$ 为 1 表示完美预测，而 $$ R^2 = 0 $$ 意味着该模型并不比预测均值表现更好。调整后的 R 平方对特征数量进行惩罚，从而防止由于添加无关预测变量而产生的虚假提升。

多元回归

当 $$ d > 1 $$ 时,该模型称为多元线性回归。每个系数 $$ w_j $$ 表示在保持所有其他特征不变的情况下, $$ x_j $$ 每变化一个单位时 $$ y $$ 的预期变化。当特征之间相关(多重共线性)时,解释系数需要格外谨慎,因为即使整体模型拟合良好,单个系数也可能变得不稳定。

正则化变体

当特征数量相对于观测数量较大，或者特征之间存在相关性时，OLS 可能会过拟合。正则化向损失函数中添加一个惩罚项：

岭回归 (L2)

\mathcal{L}_{\mathrm{ridge}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_2^2

闭式解变为 $\hat{\mathbf{w}} = (X^{\!\top} X + \lambda I)^{-1} X^{\!\top} \mathbf{y}$ 。岭回归将系数向零收缩,但绝不会将它们精确地置为零。

Lasso 回归 (L1)

\mathcal{L}_{\mathrm{lasso}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_1

Lasso 可以将系数精确地驱使为零，从而实现自动特征选择。它没有闭式解，通常通过坐标下降求解。

弹性网络

弹性网络结合了两种惩罚项: $\lambda_1 \|\mathbf{w}\|_1 + \lambda_2 \|\mathbf{w}\|_2^2$ ,在稀疏性与稳定性之间取得平衡。

实际考虑

特征缩放：对特征进行标准化（零均值、单位方差）可改善梯度下降的收敛性，并使正则化对各特征更加公平。
多项式特征：添加多项式项（例如 $$ x^2, x_1 x_2 $$ ）使线性回归能够捕捉非线性关系。
离群值：由于平方损失，OLS 对离群值很敏感。稳健的替代方案包括 Huber 回归和 RANSAC。
诊断图：残差图有助于检测假设违反的情况（非线性、异方差性、非正态性）。

参见

参考文献

Hastie, T., Tibshirani, R. 与 Friedman, J. (2009). The Elements of Statistical Learning. Springer, 第 3 章。
Montgomery, D. C., Peck, E. A. 与 Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
Hoerl, A. E. 与 Kennard, R. W. (1970). "Ridge Regression: Biased Estimation for Nonorthogonal Problems". Technometrics.
Tibshirani, R. (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B.