Eigendecomposition/zh
| Article | |
|---|---|
| Topic area | linear-algebra |
| Prerequisites | Linear Algebra, Matrix |
概述
特徵分解是將方陣分解為以其特徵值和特徵向量表示的規範形式的因式分解。當矩陣$ A \in \mathbb{R}^{n \times n} $允許分解$ A = Q \Lambda Q^{-1} $時,其中$ \Lambda $是特徵值的對角矩陣,且$ Q $的列是對應的特徵向量,則稱該矩陣是可對角化的。這種因式分解揭示了由$ A $表示的線性映射的內在幾何結構:沿每個特徵向量方向,該映射僅作為相應特徵值的簡單縮放。特徵分解是數值線性代數、統計學、信號處理和機器學習中眾多方法的基礎,包括主成分分析、譜聚類、馬爾可夫鏈分析以及動力系統的研究。它也是更一般的矩陣因式分解(如奇異值分解)的概念基礎,後者將此思想擴展到非方陣和不可對角化的矩陣。
直覺
線性映射可以以複雜的方式拉伸、旋轉和剪切向量,但特徵向量是該映射僅進行拉伸或壓縮的特殊方向。如果對於某個非零向量$ v $和標量$ \lambda $有$ A v = \lambda v $,則$ v $是特徵向量,$ \lambda $是其特徵值。從幾何上看,將$ A $作用於$ v $會使$ v $所張成的直線保持不變;僅幅值(以及可能的符號)發生變化。特徵分解組裝了一組完整的此類不變方向基,從而將$ A $的作用轉換為$ n $個獨立的一維縮放。這就是為什麼特徵分解經常被描述為找到一個坐標系,使線性映射在其中變得"儘可能簡單",即對角化的形式。在該基下,諸如重複乘法、矩陣冪和矩陣指數等計算都簡化為對標量的運算。
數學表述
設$ A \in \mathbb{C}^{n \times n} $。$ A $的特徵值是其特徵多項式的根,
$ {\displaystyle p_A(\lambda) = \det(A - \lambda I),} $
這是一個$ n $次多項式。根據代數基本定理,$ A $在$ \mathbb{C} $上恰好有$ n $個特徵值(計入重數)。對於每個特徵值$ \lambda_i $,相關的特徵向量構成$ A - \lambda_i I $的核;此子空間是$ \lambda_i $的特徵空間,其維數為幾何重數。代數重數是$ \lambda_i $作為$ p_A $的根的重數。矩陣可對角化,當且僅當每個特徵值的代數重數等於其幾何重數,等價地,當且僅當其特徵向量張成$ \mathbb{C}^n $。在這種情況下,
$ {\displaystyle A = Q \Lambda Q^{-1}, \qquad \Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n),} $
其中$ Q $的各列是按照與$ \Lambda $對角線上特徵值相同順序排列的特徵向量。當$ A $是實對稱矩陣(或復埃爾米特矩陣)時,譜定理保證$ A $可由正交矩陣(分別對應酉矩陣)對角化,並且所有特徵值均為實數,因此$ A = Q \Lambda Q^\top $,其中$ Q^\top Q = I $。
計算
對於小尺寸矩陣,可以通過寫出特徵多項式、求其根並求解相應的線性方程組來獲得特徵向量,從而執行特徵分解。這種方法在數值上不穩定,對於較大的$ n $不實用,因為在有限精度算術中求根會放大誤差,而且多項式係數本身可能是病態的。生產級數值庫改用迭代算法。由 Francis 和 Kublanovskaya 於 1961 年提出的QR算法是稠密一般矩陣的主流方法:它反覆對$ A_k = Q_k R_k $進行因式分解並構造$ A_{k+1} = R_k Q_k $,採用位移以及預先化為 Hessenberg 形以加速收斂。對於對稱矩陣,對稱 QR 算法或在三對角形式上的分治法可在$ O(n^3) $複雜度下實現強數值穩定性。[1] 當僅需若干個極端特徵值時,Krylov 子空間方法,如 Lanczos 算法(對稱情形)和 Arnoldi 迭代(非對稱情形),效率要高得多,只需矩陣-向量乘積,在大規模應用中佔據主導地位。[2]
應用
特徵分解在整個應用數學中都有出現。在統計學中,主成分分析對樣本協方差矩陣執行特徵分解,以識別方差最大的方向,為降維提供了基礎。在圖論和無監督學習中,譜方法利用圖拉普拉斯算子的特徵向量來嵌入節點,以進行聚類或劃分。在動力系統中,轉移矩陣的特徵值決定其漸近行為:離散時間線性系統$ x_{k+1} = A x_k $穩定,當且僅當所有特徵值都嚴格位於$ \mathbb{C} $中的單位圓盤內。矩陣指數$ e^{A t} $(用於求解連續時間線性常微分方程)在$ A $可對角化時具有閉式$ Q e^{\Lambda t} Q^{-1} $,其中$ e^{\Lambda t} $是對角矩陣。在量子力學中,埃爾米特算符的特徵值是可能的測量結果,其特徵向量構成態空間的完整正交歸一基。在深度學習中,特徵分解出現在二階優化中,其中海森矩陣的特徵結構刻畫了局部曲率。
變體與推廣
若干分解擴展或特殊化了基本的特徵分解。奇異值分解推廣到長方矩陣,並且始終存在,即使特徵分解失敗時也存在;對於實矩陣$ A $,奇異值是$ A^\top A $的特徵值的平方根。Jordan 標準型通過產生分塊對角的"Jordan 塊"而非對角線上的純標量來處理不可對角化的矩陣;它在理論上很重要,但在數值上脆弱,因為微小的擾動會改變塊結構。Schur 分解$ A = U T U^* $,其中$ U $為酉矩陣,$ T $為上三角矩陣,對任意複方陣始終存在,是穩定計算的主力:它在$ T $的對角線上保留特徵值,同時避免了完全對角化的條件數問題。形如$ A v = \lambda B v $的廣義特徵值問題出現在振動分析和統計學中,可由 QZ 算法處理。
局限性
並非每個方矩陣都可對角化。虧損矩陣——其線性無關的特徵向量少於其維數——不允許特徵分解;最簡單的例子是$ 2 \times 2 $剪切矩陣,其兩個特徵值均等於一,但僅有一維特徵空間。即使可對角化,特徵值問題的條件數也取決於矩陣結構:接近虧損的矩陣的特徵向量矩陣$ Q $具有非常大的條件數,使得$ Q^{-1} $在數值上危險。非正規矩陣(那些與其共軛轉置不可交換的矩陣)的特徵值可能對擾動極為敏感,因此在對此類矩陣進行穩定性或敏感性分析時,應謹慎使用特徵分解;偽譜通常是更具信息量的工具。對於非常大的稀疏矩陣,計算完整的特徵分解通常不可行,因此更傾向於使用迭代或隨機化方法。
比較
特徵分解和奇異值分解密切相關但有所不同。SVD適用於任何矩陣,並始終產生正交歸一因子,使其在數值上穩健,是諸如低秩近似、偽逆計算和 PCA 等實際應用的默認選擇。特徵分解僅適用於方陣且可能不存在,但它保留了關於底層線性映射的方向信息,而 SVD 不保留這些信息:SVD 總是返回非負的奇異值,而特徵值可以是負數或複數,從而編碼旋轉、反射和增長。Schur 分解是特徵分解在數值上更穩定的近親,在不嚴格要求完全對角化時是更優選擇。因此,這些因式分解之間的選擇取決於應用需要特徵值、奇異值,還是僅需要三角化簡。