Linear Regression/zh
| Article | |
|---|---|
| Topic area | Statistics |
| Difficulty | Introductory |
線性回歸是一種基本的統計方法,通過將線性方程擬合到觀測數據上來建模因變量與一個或多個自變量之間的關係。它是統計學和機器學習中最古老且最廣泛使用的技術之一,既是一種實用的預測工具,也是理解更複雜模型的基礎構件。
問題設置
給定包含 $ N $ 個觀測的數據集 $ \{(\mathbf{x}_i, y_i)\}_{i=1}^{N} $,其中 $ \mathbf{x}_i \in \mathbb{R}^d $ 是特徵向量,$ y_i \in \mathbb{R} $ 是目標值,線性回歸假設以下關係:
- $ y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + b + \epsilon_i $
其中 $ \mathbf{w} \in \mathbb{R}^d $ 是權重向量,$ b $ 是偏置(截距),$ \epsilon_i $ 是誤差項。通過將偏置吸收到權重向量中(在每個 $ \mathbf{x}_i $ 後追加一個 1),這可以簡化為 $ y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + \epsilon_i $。
普通最小二乘法
普通最小二乘法(OLS)尋找使殘差平方和最小的權重:
- $ \mathcal{L}(\mathbf{w}) = \sum_{i=1}^{N} (y_i - \mathbf{w}^{\!\top} \mathbf{x}_i)^2 = \|\mathbf{y} - X\mathbf{w}\|^2 $
其中 $ X \in \mathbb{R}^{N \times d} $ 是設計矩陣,$ \mathbf{y} \in \mathbb{R}^N $ 是目標向量。
閉式解
令梯度為零,得到正規方程:
- $ \nabla_{\mathbf{w}} \mathcal{L} = -2 X^{\!\top}(\mathbf{y} - X\mathbf{w}) = 0 $
- $ \hat{\mathbf{w}} = (X^{\!\top} X)^{-1} X^{\!\top} \mathbf{y} $
當 $ X^{\!\top} X $ 可逆(即特徵線性獨立)時,該解存在且唯一。計算成本為 $ O(Nd^2 + d^3) $,對於中等規模的 $ d $ 是高效的,但在高維問題中會變得非常昂貴。
梯度下降方法
當閉式解不實用時($ d $ 或 $ N $ 很大),則使用通過梯度下降進行的迭代優化。梯度為:
- $ \nabla_{\mathbf{w}} \mathcal{L} = -\frac{2}{N} X^{\!\top}(\mathbf{y} - X\mathbf{w}) $
更新規則為 $ \mathbf{w} \leftarrow \mathbf{w} - \eta \nabla_{\mathbf{w}} \mathcal{L} $,其中 $ \eta $ 是學習率。隨機梯度下降和小批量變體可擴展到數百萬個數據點。
OLS 的假設
在高斯-馬爾可夫條件下,經典的 OLS 估計量是 BLUE(最佳線性無偏估計量):
- 線性性:特徵與目標之間的真實關係是線性的。
- 獨立性:觀測彼此獨立。
- 同方差性:誤差方差 $ \mathrm{Var}(\epsilon_i) = \sigma^2 $ 在所有觀測中保持恆定。
- 無完全多重共線性:沒有任何特徵是其他特徵的精確線性組合。
- 外生性:$ E[\epsilon_i \mid \mathbf{x}_i] = 0 $ —— 誤差與特徵不相關。
違反這些假設並不一定使線性回歸失去用途,但可能會使從模型導出的置信區間和假設檢驗失效。
評估指標
| 指標 | 公式 | 解釋 |
|---|---|---|
| MSE | $ \frac{1}{N}\sum(y_i - \hat{y}_i)^2 $ | 平均平方誤差;對較大的誤差施加更大懲罰 |
| RMSE | $ \sqrt{\mathrm{MSE}} $ | 與目標具有相同單位 |
| MAE | $ \frac{1}{N}\sum|y_i - \hat{y}_i| $ | 平均絕對誤差;對異常值具有魯棒性 |
| R 平方 | $ 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} $ | 解釋的方差比例(0 到 1) |
$ R^2 $ 等於 1 表示完美預測,而 $ R^2 = 0 $ 表示模型並不優於直接預測均值。調整後的 R 平方對特徵數量加以懲罰,從而避免因添加無關預測變量而產生的虛假提升。
多元回歸
當 $ d > 1 $ 時,該模型稱為多元線性回歸。每個係數 $ w_j $ 表示在保持所有其他特徵不變的情況下,$ x_j $ 每變化一個單位時 $ y $ 的預期變化。當特徵之間相關(多重共線性)時,解釋係數需要格外謹慎,因為即使整體模型擬合良好,單個係數也可能變得不穩定。
正則化變體
當特徵數量相對於觀測數量較大時,或當特徵之間存在相關性時,OLS 可能會過擬合。正則化向損失函數添加懲罰項:
嶺回歸 (L2)
- $ \mathcal{L}_{\mathrm{ridge}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_2^2 $
閉式解變為 $ \hat{\mathbf{w}} = (X^{\!\top} X + \lambda I)^{-1} X^{\!\top} \mathbf{y} $。嶺回歸將係數向零收縮,但絕不會將它們精確地置為零。
Lasso 回歸 (L1)
- $ \mathcal{L}_{\mathrm{lasso}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_1 $
Lasso 可以將係數精確地推至零,從而實現自動特徵選擇。它沒有閉式解,通常通過坐標下降法求解。
彈性網絡
彈性網絡結合了兩種懲罰項:$ \lambda_1 \|\mathbf{w}\|_1 + \lambda_2 \|\mathbf{w}\|_2^2 $,在稀疏性與穩定性之間取得平衡。
實際考慮
- 特徵縮放:標準化特徵(零均值、單位方差)可改善梯度下降的收斂性,並使正則化對各特徵公平。
- 多項式特徵:添加多項式項(例如 $ x^2, x_1 x_2 $)可使線性回歸捕捉非線性關係。
- 異常值:由於使用平方損失,OLS 對異常值敏感。穩健的替代方案包括 Huber 回歸和 RANSAC。
- 診斷圖:殘差圖有助於檢測對假設的違反(非線性、異方差性、非正態性)。
參見
- Stochastic Gradient Descent
- Logistic regression
- Loss Functions
- Overfitting and Regularization
- Neural Networks
參考文獻
- Hastie, T., Tibshirani, R. 與 Friedman, J. (2009). The Elements of Statistical Learning. Springer, 第 3 章。
- Montgomery, D. C., Peck, E. A. 與 Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
- Hoerl, A. E. 與 Kennard, R. W. (1970). "Ridge Regression: Biased Estimation for Nonorthogonal Problems". Technometrics.
- Tibshirani, R. (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B.