Imitation Learning/zh

    From Marovi AI
    This page is a translated version of the page Imitation Learning and the translation is 100% complete.
    Other languages:
    Article
    Topic area Reinforcement Learning
    Prerequisites Deep learning, Cross-Entropy Loss, Generative Adversarial Networks


    概述

    模仿学习是一类机器学习方法,其中智能体通过观察专家的演示来学习执行任务,而不是通过试错来优化人工指定的奖励信号。专家通常是人类操作员、脚本化的控制器或先前训练好的策略,演示由观测轨迹与专家所采取动作的配对组成。目标是恢复一个策略,使其在部署期间遇到的状态上能够重现专家的行为,理想情况下还能推广到演示集中未出现的状态。

    模仿学习介于监督学习强化学习之间。与监督学习类似,它依赖于带标签的输入-输出对,避免了纯粹由奖励驱动的探索所带来的高样本复杂度。与强化学习类似,它针对的是序贯决策问题,其中动作会影响未来输入的分布。这种中间定位使其成为机器人学、自动驾驶、对话系统和游戏的实用首选,尤其适用于难以指定奖励函数但容易收集演示的场景。

    问题设定

    形式上,模仿学习在没有奖励马尔可夫决策过程(有时称为受控马尔可夫过程)中进行研究:一个由状态空间、动作空间、转移动力学 $ P(s' \mid s, a) $ 和初始状态分布 $ \rho_0 $ 组成的元组 $ (\mathcal{S}, \mathcal{A}, P, \rho_0) $。专家由一个策略 $ \pi^{*}(a \mid s) $ 表示,学习者观察到一个数据集

    $ {\displaystyle \mathcal{D} = \{(s_i, a_i)\}_{i=1}^{N}, \quad (s_i, a_i) \sim d^{\pi^{*}},} $

    其中 $ d^{\pi^{*}} $ 是由专家所诱导的状态-动作分布。目标是学习一个参数化策略 $ \pi_\theta(a \mid s) $,使其轨迹分布与专家的轨迹分布相匹配,匹配的评估方式可以是行为相似度、在未知任务奖励下的表现,或占用度量之间的散度。

    一个核心难点是学习者是在自身的状态分布 $ d^{\pi_\theta} $ 下被评估,而不是在专家的分布 $ d^{\pi^{*}} $ 下。每一步微小的预测误差会随时间累积,并将智能体推向专家从未访问过的状态,而在那里策略没有任何训练信号。这一现象通常称为协变量偏移或复合误差,是该领域大多数算法发展的根源。

    行为克隆

    最简单的模仿方法是行为克隆,它将演示集视为一个独立同分布的监督分类或回归问题。学习者在每个被演示的状态上最小化预测动作与演示动作之间的损失:

    $ {\displaystyle \min_{\theta} \; \mathbb{E}_{(s, a) \sim \mathcal{D}} \big[ \ell(\pi_\theta(s), a) \big].} $

    对于离散动作,$ \ell $ 通常是负对数似然;对于连续动作,则为均方误差高斯负对数似然。行为克隆之所以具有吸引力,是因为它在训练期间不需要访问环境,可以与监督学习使用的任意架构结合使用,并且能够扩展到非常大的演示集。

    其弱点源自独立同分布的假设。Ross 和 Bagnell 证明,行为克隆得到的策略的期望错误数可以随轨迹时序长度 $ T $ 二次增长,因为每个错误都会使状态分布进一步偏离训练集。因此,行为克隆通常在演示支撑附近表现尚可,但在长时序任务或专家很少访问的状态空间区域中性能会急剧下降。

    交互式模仿:DAgger

    数据集聚合(DAgger)通过在学习者自身的状态分布下收集演示来应对复合误差。在每次迭代中,将当前策略 $ \pi_\theta $ 在环境中展开,对所得到的状态向专家查询,并将新的状态-动作对追加到数据集中。然后在聚合后的数据上重新训练策略:

    $ {\displaystyle \mathcal{D}_{k+1} = \mathcal{D}_k \cup \{(s, \pi^{*}(s)) : s \sim d^{\pi_{\theta_k}}\}.} $

    在标准的悔恨最小化假设下,DAgger 将对时序长度的依赖从二次降低为线性。其代价是专家必须可以在线查询,这在演示来自离线日志或来自无法按需标注任意状态的人类操作员时会限制其适用性。SafeDAgger 和 HG-DAgger 等变体仅在学习者不确定或其建议的动作与安全控制器存在偏差时才向专家查询,从而减轻专家的负担。

    逆向强化学习

    逆向强化学习将问题重新表述为:恢复一个奖励函数 $ r_\phi $,使得专家的策略在该奖励下是最优的,然后针对所恢复的奖励进行规划或学习策略。专家被视为求解

    $ {\displaystyle \pi^{*} \in \arg\max_{\pi} \mathbb{E}_{\pi}\!\left[\sum_{t=0}^{\infty} \gamma^{t} r_\phi(s_t, a_t)\right],} $

    学习者在奖励参数空间中搜索,使这一假设与演示保持一致。Ziebart 等人提出的最大形式化通过偏好那些使专家轨迹分布在特征期望匹配约束下具有最大熵的奖励,解决了固有的歧义性(许多奖励都能合理化同一行为)。逆向强化学习通常比行为克隆泛化得更好,因为恢复出来的奖励是状态的属性而非轨迹的属性,可以跨动力学和初始条件迁移,但其计算开销较大,并且通常需要在内部循环中求解一个正向控制问题。

    对抗式模仿学习

    生成式对抗模仿学习(GAIL)通过训练一个判别器 $ D_\phi(s, a) $ 来区分专家的状态-动作对与 $ \pi_\theta $ 生成的状态-动作对,并使用判别器的对数胜率作为替代奖励,从而去除了逆向强化学习显式的内部循环规划器。其极小极大目标为

    $ {\displaystyle \min_{\theta} \max_{\phi} \; \mathbb{E}_{(s,a) \sim d^{\pi^{*}}}[\log D_\phi(s,a)] + \mathbb{E}_{(s,a) \sim d^{\pi_\theta}}[\log(1 - D_\phi(s,a))] - \lambda H(\pi_\theta),} $

    其中 $ H(\pi_\theta) $策略正则化项。当 $ \pi_\theta $ 的占用度量与 $ \pi^{*} $ 的占用度量相匹配时达到最优,此时判别器在所有位置都输出 $ 1/2 $。GAIL 继承了逆向强化学习的样本效率,同时复用了标准的策略梯度机制,并衍生出了匹配不同散度(f-散度、Wasserstein)、引入目标信息或使用离线数据的变体。

    实践考虑

    方法的选择主要取决于可用资源。如果演示充足且部署分布与演示分布相近,行为克隆是最强的基线,应当首先尝试。如果专家可以在线查询且时序长度较长,则更倾向于使用 DAgger 或其某种更安全的变体。如果演示稀少但环境的交互成本较低,GAIL 或其他对抗式方法能从每条演示中提取更多信号。当所恢复的奖励本身就是所关心的产物时,例如希望将行为迁移到新机器人或希望解释人类偏好时,逆向强化学习是首选。

    动作空间、观测模态以及专家的形式都很重要。连续控制受益于高斯策略或高斯混合策略,以及对动作平滑性的显式处理。基于像素的观测则需要使用以自监督方式预训练的感知表示。当专家是多模态的(不同的人,或同一个人在相似状态下采取不同的动作)时,单一高斯策略会在各模式之间求平均,导致行为表现不佳;显式的多模态策略、基于能量的模型或基于扩散的动作头已经成为常见的应对方案。

    局限性与开放问题

    模仿学习会继承其演示数据的偏差。基于单一驾驶员训练的策略会重现该驾驶员的特异性,而基于车队训练的策略则会以某种方式对它们求平均,结果可能比任何个体都更平滑,但在罕见操作上的表现却更差。演示也很少涵盖故障恢复:专家倾向于避开那些恢复最难学习的不良状态,使得模仿学习器恰恰在最需要鲁棒性的地方变得脆弱。

    开放的研究方向包括将模仿扩展到互联网规模的视频、处理没有动作标签的演示、将模仿与离线强化学习相结合以利用次优数据,以及量化模仿器何时被允许在其支撑之外进行外推。它与生成式建模的联系正变得越来越直接:动作扩散模型、在词元化轨迹上训练的自回归策略以及大型行为模型,都将模仿视为大规模的分布匹配问题。

    参考文献

    • Pomerleau, D. ALVINN: An Autonomous Land Vehicle in a Neural Network. NeurIPS, 1988.
    • Ross, S., Gordon, G., Bagnell, D. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS, 2011.
    • Abbeel, P., Ng, A. Apprenticeship Learning via Inverse Reinforcement Learning. ICML, 2004.
    • Ziebart, B., Maas, A., Bagnell, D., Dey, A. Maximum Inverse Reinforcement Learning. AAAI, 2008.
    • Ho, J., Ermon, S. Generative Adversarial Imitation Learning. NeurIPS, 2016.
    • Osa, T., Pajarinen, J., Neumann, G., Bagnell, D., Abbeel, P., Peters, J. An Algorithmic Perspective on Imitation Learning. Foundations and Trends in Robotics, 2018.