Translations:Diffusion Models Are Real-Time Game Engines/18/zh

    From Marovi

    给定输入交互环境 和初始状态 ,一个“交互世界模拟”是一个“模拟分布函数” 。给定观测值之间的距离度量 ,一个“策略”,即给定过去动作和观测的代理动作分布 ,初始状态分布 和回合长度分布 ,交互世界模拟的目标是最小化 ,其中 ,以及 是在执行代理策略 时从环境和模拟中抽取的观测值。重要的是,这些样本的条件动作总是通过代理与环境 交互获得,而条件观测既可以从 获得(“教师强迫目标”),也可以从模拟中获得(“自回归目标”)。