Linear Regression/zh

Article
Topic area	Statistics
Difficulty	Introductory

Other languages:

English
Español
中文

线性回归是一种基本的统计方法,通过将线性方程拟合到观测数据上来建模因变量与一个或多个自变量之间的关系。它是统计学和机器学习中最古老且最广泛使用的技术之一,既是一种实用的预测工具,也是理解更复杂模型的基础构件。

问题设置

给定包含 $$ N $$ 个观测的数据集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^{N}$ ,其中 $\mathbf{x}_i \in \mathbb{R}^d$ 是特征向量, $y_i \in \mathbb{R}$ 是目标值,线性回归假设以下关系:

y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + b + \epsilon_i

其中 $\mathbf{w} \in \mathbb{R}^d$ 是权重向量, $$ b $$ 是偏置(截距), $\epsilon_i$ 是误差项。通过将偏置吸收到权重向量中(在每个 $\mathbf{x}_i$ 后追加一个 1),这可以简化为 $y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + \epsilon_i$ 。

普通最小二乘法

普通最小二乘法(OLS)寻找使残差平方和最小的权重:

\mathcal{L}(\mathbf{w}) = \sum_{i=1}^{N} (y_i - \mathbf{w}^{\!\top} \mathbf{x}_i)^2 = \|\mathbf{y} - X\mathbf{w}\|^2

其中 $X \in \mathbb{R}^{N \times d}$ 是设计矩阵, $\mathbf{y} \in \mathbb{R}^N$ 是目标向量。

闭式解

令梯度为零,得到正规方程:

\nabla_{\mathbf{w}} \mathcal{L} = -2 X^{\!\top}(\mathbf{y} - X\mathbf{w}) = 0

\hat{\mathbf{w}} = (X^{\!\top} X)^{-1} X^{\!\top} \mathbf{y}

当 $X^{\!\top} X$ 可逆(即特征线性独立)时,该解存在且唯一。计算成本为 $$ O(Nd^2 + d^3) $$ ,对于中等规模的 $$ d $$ 是高效的,但在高维问题中会变得非常昂贵。

梯度下降方法

当闭式解不实用时( $$ d $$ 或 $$ N $$ 很大),则使用通过梯度下降进行的迭代优化。梯度为:

\nabla_{\mathbf{w}} \mathcal{L} = -\frac{2}{N} X^{\!\top}(\mathbf{y} - X\mathbf{w})

更新规则为 $\mathbf{w} \leftarrow \mathbf{w} - \eta \nabla_{\mathbf{w}} \mathcal{L}$ ，其中 $\eta$ 是学习率。随机梯度下降和小批量变体可扩展到数百万个数据点。

OLS 的假设

在高斯-马尔可夫条件下,经典的 OLS 估计量是 BLUE(最佳线性无偏估计量):

线性性:特征与目标之间的真实关系是线性的。
独立性:观测彼此独立。
同方差性:误差方差 $\mathrm{Var}(\epsilon_i) = \sigma^2$ 在所有观测中保持恒定。
无完全多重共线性:没有任何特征是其他特征的精确线性组合。
外生性: $E[\epsilon_i \mid \mathbf{x}_i] = 0$ —— 误差与特征不相关。

违反这些假设并不一定使线性回归失去用途,但可能会使从模型导出的置信区间和假设检验失效。

评估指标

指标	公式	解释
MSE	$\frac{1}{N}\sum(y_i - \hat{y}_i)^2$	平均平方误差;对较大的误差施加更大惩罚
RMSE	$\sqrt{\mathrm{MSE}}$	与目标具有相同单位
MAE	$\frac{1}{N}\sum\|y_i - \hat{y}_i\|$	平均绝对误差;对异常值具有鲁棒性
R 平方	$1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$	解释的方差比例(0 到 1)

$$ R^2 $$ 等于 1 表示完美预测,而 $$ R^2 = 0 $$ 表示模型并不优于直接预测均值。调整后的 R 平方对特征数量加以惩罚,从而避免因添加无关预测变量而产生的虚假提升。

多元回归

当 $$ d > 1 $$ 时,该模型称为多元线性回归。每个系数 $$ w_j $$ 表示在保持所有其他特征不变的情况下, $$ x_j $$ 每变化一个单位时 $$ y $$ 的预期变化。当特征之间相关(多重共线性)时,解释系数需要格外谨慎,因为即使整体模型拟合良好,单个系数也可能变得不稳定。

正则化变体

当特征数量相对于观测数量较大时，或当特征之间存在相关性时，OLS 可能会过拟合。正则化向损失函数添加惩罚项：

岭回归 (L2)

\mathcal{L}_{\mathrm{ridge}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_2^2

闭式解变为 $\hat{\mathbf{w}} = (X^{\!\top} X + \lambda I)^{-1} X^{\!\top} \mathbf{y}$ 。岭回归将系数向零收缩,但绝不会将它们精确地置为零。

Lasso 回归 (L1)

\mathcal{L}_{\mathrm{lasso}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_1

Lasso 可以将系数精确地推至零,从而实现自动特征选择。它没有闭式解,通常通过坐标下降法求解。

弹性网络

弹性网络结合了两种惩罚项: $\lambda_1 \|\mathbf{w}\|_1 + \lambda_2 \|\mathbf{w}\|_2^2$ ,在稀疏性与稳定性之间取得平衡。

实际考虑

特征缩放：标准化特征（零均值、单位方差）可改善梯度下降的收敛性，并使正则化对各特征公平。
多项式特征：添加多项式项（例如 $$ x^2, x_1 x_2 $$ ）可使线性回归捕捉非线性关系。
异常值：由于使用平方损失，OLS 对异常值敏感。稳健的替代方案包括 Huber 回归和 RANSAC。
诊断图：残差图有助于检测对假设的违反（非线性、异方差性、非正态性）。

参见

参考文献

Hastie, T., Tibshirani, R. 与 Friedman, J. (2009). The Elements of Statistical Learning. Springer, 第 3 章。
Montgomery, D. C., Peck, E. A. 与 Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
Hoerl, A. E. 与 Kennard, R. W. (1970). "Ridge Regression: Biased Estimation for Nonorthogonal Problems". Technometrics.
Tibshirani, R. (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B.

Article
Topic area	Statistics
Difficulty	Introductory