Imitation Learning/zh
| Article | |
|---|---|
| Topic area | Reinforcement Learning |
| Prerequisites | Deep learning, Cross-Entropy Loss, Generative Adversarial Networks |
概述
模仿學習是一類機器學習方法,其中智能體通過觀察專家的演示來學習執行任務,而不是通過試錯來優化人工指定的獎勵信號。專家通常是人類操作員、腳本化的控制器或先前訓練好的策略,演示由觀測軌跡與專家所採取動作的配對組成。目標是恢復一個策略,使其在部署期間遇到的狀態上能夠重現專家的行為,理想情況下還能推廣到演示集中未出現的狀態。
模仿學習介於監督學習和強化學習之間。與監督學習類似,它依賴於帶標籤的輸入-輸出對,避免了純粹由獎勵驅動的探索所帶來的高樣本複雜度。與強化學習類似,它針對的是序貫決策問題,其中動作會影響未來輸入的分佈。這種中間定位使其成為機械人學、自動駕駛、對話系統和遊戲的實用首選,尤其適用於難以指定獎勵函數但容易收集演示的場景。
問題設定
形式上,模仿學習在沒有獎勵的馬爾可夫決策過程(有時稱為受控馬爾可夫過程)中進行研究:一個由狀態空間、動作空間、轉移動力學 $ P(s' \mid s, a) $ 和初始狀態分佈 $ \rho_0 $ 組成的元組 $ (\mathcal{S}, \mathcal{A}, P, \rho_0) $。專家由一個策略 $ \pi^{*}(a \mid s) $ 表示,學習者觀察到一個數據集
$ {\displaystyle \mathcal{D} = \{(s_i, a_i)\}_{i=1}^{N}, \quad (s_i, a_i) \sim d^{\pi^{*}},} $
其中 $ d^{\pi^{*}} $ 是由專家所誘導的狀態-動作分佈。目標是學習一個參數化策略 $ \pi_\theta(a \mid s) $,使其軌跡分佈與專家的軌跡分佈相匹配,匹配的評估方式可以是行為相似度、在未知任務獎勵下的表現,或佔用度量之間的散度。
一個核心難點是學習者是在自身的狀態分佈 $ d^{\pi_\theta} $ 下被評估,而不是在專家的分佈 $ d^{\pi^{*}} $ 下。每一步微小的預測誤差會隨時間累積,並將智能體推向專家從未訪問過的狀態,而在那裏策略沒有任何訓練信號。這一現象通常稱為協變量偏移或複合誤差,是該領域大多數算法發展的根源。
行為克隆
最簡單的模仿方法是行為克隆,它將演示集視為一個獨立同分佈的監督分類或回歸問題。學習者在每個被演示的狀態上最小化預測動作與演示動作之間的損失:
$ {\displaystyle \min_{\theta} \; \mathbb{E}_{(s, a) \sim \mathcal{D}} \big[ \ell(\pi_\theta(s), a) \big].} $
對於離散動作,$ \ell $ 通常是負對數似然;對於連續動作,則為均方誤差或高斯負對數似然。行為克隆之所以具有吸引力,是因為它在訓練期間不需要訪問環境,可以與監督學習使用的任意架構結合使用,並且能夠擴展到非常大的演示集。
其弱點源自獨立同分佈的假設。Ross 和 Bagnell 證明,行為克隆得到的策略的期望錯誤數可以隨軌跡時序長度 $ T $ 二次增長,因為每個錯誤都會使狀態分佈進一步偏離訓練集。因此,行為克隆通常在演示支撐附近表現尚可,但在長時序任務或專家很少訪問的狀態空間區域中性能會急劇下降。
交互式模仿:DAgger
數據集聚合(DAgger)通過在學習者自身的狀態分佈下收集演示來應對複合誤差。在每次迭代中,將當前策略 $ \pi_\theta $ 在環境中展開,對所得到的狀態向專家查詢,並將新的狀態-動作對追加到數據集中。然後在聚合後的數據上重新訓練策略:
$ {\displaystyle \mathcal{D}_{k+1} = \mathcal{D}_k \cup \{(s, \pi^{*}(s)) : s \sim d^{\pi_{\theta_k}}\}.} $
在標準的悔恨最小化假設下,DAgger 將對時序長度的依賴從二次降低為線性。其代價是專家必須可以在線查詢,這在演示來自離線日誌或來自無法按需標註任意狀態的人類操作員時會限制其適用性。SafeDAgger 和 HG-DAgger 等變體僅在學習者不確定或其建議的動作與安全控制器存在偏差時才向專家查詢,從而減輕專家的負擔。
逆向強化學習
逆向強化學習將問題重新表述為:恢復一個獎勵函數 $ r_\phi $,使得專家的策略在該獎勵下是最優的,然後針對所恢復的獎勵進行規劃或學習策略。專家被視為求解
$ {\displaystyle \pi^{*} \in \arg\max_{\pi} \mathbb{E}_{\pi}\!\left[\sum_{t=0}^{\infty} \gamma^{t} r_\phi(s_t, a_t)\right],} $
學習者在獎勵參數空間中搜索,使這一假設與演示保持一致。Ziebart 等人提出的最大熵形式化通過偏好那些使專家軌跡分佈在特徵期望匹配約束下具有最大熵的獎勵,解決了固有的歧義性(許多獎勵都能合理化同一行為)。逆向強化學習通常比行為克隆泛化得更好,因為恢復出來的獎勵是狀態的屬性而非軌跡的屬性,可以跨動力學和初始條件遷移,但其計算開銷較大,並且通常需要在內部循環中求解一個正向控制問題。
對抗式模仿學習
生成式對抗模仿學習(GAIL)通過訓練一個判別器 $ D_\phi(s, a) $ 來區分專家的狀態-動作對與 $ \pi_\theta $ 生成的狀態-動作對,並使用判別器的對數勝率作為替代獎勵,從而去除了逆向強化學習顯式的內部循環規劃器。其極小極大目標為
$ {\displaystyle \min_{\theta} \max_{\phi} \; \mathbb{E}_{(s,a) \sim d^{\pi^{*}}}[\log D_\phi(s,a)] + \mathbb{E}_{(s,a) \sim d^{\pi_\theta}}[\log(1 - D_\phi(s,a))] - \lambda H(\pi_\theta),} $
其中 $ H(\pi_\theta) $ 是策略的熵正則化項。當 $ \pi_\theta $ 的佔用度量與 $ \pi^{*} $ 的佔用度量相匹配時達到最優,此時判別器在所有位置都輸出 $ 1/2 $。GAIL 繼承了逆向強化學習的樣本效率,同時復用了標準的策略梯度機制,並衍生出了匹配不同散度(f-散度、Wasserstein)、引入目標信息或使用離線數據的變體。
實踐考慮
方法的選擇主要取決於可用資源。如果演示充足且部署分佈與演示分佈相近,行為克隆是最強的基線,應當首先嘗試。如果專家可以在線查詢且時序長度較長,則更傾向於使用 DAgger 或其某種更安全的變體。如果演示稀少但環境的交互成本較低,GAIL 或其他對抗式方法能從每條演示中提取更多信號。當所恢復的獎勵本身就是所關心的產物時,例如希望將行為遷移到新機械人或希望解釋人類偏好時,逆向強化學習是首選。
動作空間、觀測模態以及專家的形式都很重要。連續控制受益於高斯策略或高斯混合策略,以及對動作平滑性的顯式處理。基於像素的觀測則需要使用以自監督方式預訓練的感知表示。當專家是多模態的(不同的人,或同一個人在相似狀態下採取不同的動作)時,單一高斯策略會在各模式之間求平均,導致行為表現不佳;顯式的多模態策略、基於能量的模型或基於擴散的動作頭已經成為常見的應對方案。
局限性與開放問題
模仿學習會繼承其演示數據的偏差。基於單一駕駛員訓練的策略會重現該駕駛員的特異性,而基於車隊訓練的策略則會以某種方式對它們求平均,結果可能比任何個體都更平滑,但在罕見操作上的表現卻更差。演示也很少涵蓋故障恢復:專家傾向於避開那些恢復最難學習的不良狀態,使得模仿學習器恰恰在最需要魯棒性的地方變得脆弱。
開放的研究方向包括將模仿擴展到互聯網規模的視頻、處理沒有動作標籤的演示、將模仿與離線強化學習相結合以利用次優數據,以及量化模仿器何時被允許在其支撐之外進行外推。它與生成式建模的聯繫正變得越來越直接:動作擴散模型、在詞元化軌跡上訓練的自回歸策略以及大型行為模型,都將模仿視為大規模的分佈匹配問題。
參考文獻
- Pomerleau, D. ALVINN: An Autonomous Land Vehicle in a Neural Network. NeurIPS, 1988.
- Ross, S., Gordon, G., Bagnell, D. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS, 2011.
- Abbeel, P., Ng, A. Apprenticeship Learning via Inverse Reinforcement Learning. ICML, 2004.
- Ziebart, B., Maas, A., Bagnell, D., Dey, A. Maximum 熵 Inverse Reinforcement Learning. AAAI, 2008.
- Ho, J., Ermon, S. Generative Adversarial Imitation Learning. NeurIPS, 2016.
- Osa, T., Pajarinen, J., Neumann, G., Bagnell, D., Abbeel, P., Peters, J. An Algorithmic Perspective on Imitation Learning. Foundations and Trends in Robotics, 2018.